Fugu-MT 論文翻訳(概要): Free Lunch for Efficient Textual Commonsense Integration in Language Models

論文の概要: Free Lunch for Efficient Textual Commonsense Integration in Language Models

arxiv url: http://arxiv.org/abs/2305.15516v1
Date: Wed, 24 May 2023 19:14:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 19:01:47.600528
Title: Free Lunch for Efficient Textual Commonsense Integration in Language Models
Title（参考訳）: 言語モデルにおける効率的なテキストコモンセンス統合のためのフリーランチ
Authors: Wanyun Cui, Xingran Chen
Abstract要約: 類似したコモンセンス記述を持つサンプルを1つのバッチにグループ化し、複数のサンプル間でエンコードされた記述を再利用する。大規模な実験では、提案したバッチ分割手法が性能を保ちながら計算コストを効果的に削減することを示した。効率の改善は、大規模なデータセットや、メモリ容量の大きいデバイスでより顕著であり、大規模なアプリケーションに実用性があることを証明している。
参考スコア（独自算出の注目度）: 20.02647320786556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent years have witnessed the emergence of textual commonsense knowledge bases, aimed at providing more nuanced and context-rich knowledge. The integration of external commonsense into language models has been shown to be a key enabler in advancing the state-of-the-art for a wide range of NLP tasks. However, incorporating textual commonsense descriptions is computationally expensive, as compared to encoding conventional symbolic knowledge. In this paper, we propose a method to improve its efficiency without modifying the model. We group training samples with similar commonsense descriptions into a single batch, thus reusing the encoded description across multiple samples. One key observation is that the upper bound of batch partitioning can be reduced to the classic {\it graph k-cut problem}. Consequently, we propose a spectral clustering-based algorithm to solve this problem. Extensive experiments illustrate that the proposed batch partitioning approach effectively reduces the computational cost while preserving performance. The efficiency improvement is more pronounced on larger datasets and on devices with more memory capacity, attesting to its practical utility for large-scale applications.
Abstract（参考訳）: 近年では、よりニュアンス豊かで文脈に富んだ知識を提供することを目的とした、文章の常識的な知識ベースが出現している。言語モデルへの外部コモンセンスの統合は、幅広いNLPタスクの最先端化における重要な実現要因であることが示されている。しかし、従来の記号的知識の符号化と比較して、テキストのコモンセンス記述を組み込むことは計算コストがかかる。本稿では,モデルを変更することなく効率を向上させる手法を提案する。類似したコモンセンス記述を持つサンプルを1つのバッチにグループ化し、複数のサンプル間でエンコードされた記述を再利用する。 1つの重要な観察は、バッチ分割の上限は古典的なグラフ k-カット問題に還元できるということである。そこで本研究では,スペクトルクラスタリングに基づくアルゴリズムを提案する。大規模な実験により,提案手法は性能を保ちながら計算コストを効果的に削減することを示した。効率の改善は、より大きなデータセットとより多くのメモリ容量を持つデバイスでより顕著であり、大規模なアプリケーションで実用性が証明されている。

関連論文リスト

When Every Token Counts: Optimal Segmentation for Low-Resource Language Models [0.0]
最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
論文参考訳（メタデータ） (2024-12-09T19:11:54Z)
Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文参考訳（メタデータ） (2024-11-26T00:15:37Z)
A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文参考訳（メタデータ） (2024-10-30T01:53:04Z)
Divide, Reweight, and Conquer: A Logit Arithmetic Approach for In-Context Learning [19.16587730306472]
大規模言語モデル(LLM)の重要な機能として、インコンテキスト学習(ICL)が登場複数の実演のロジットベースアンサンブルを用いてICLを強化する新しいフレームワークであるLogit Arithmetic Reweighting Approach (LARA)を提案する。
論文参考訳（メタデータ） (2024-10-14T01:34:16Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文参考訳（メタデータ） (2024-01-12T16:56:54Z)
Adaptive End-to-End Metric Learning for Zero-Shot Cross-Domain Slot Filling [2.6056468338837457]
スロットフィリングは、トレーニング中にサンプルを見ることのない新しいドメインを扱う上で重要な課題である。ほとんどの先行研究は、メートル法学習に基づく2パスパイプライン方式でこの問題に対処している。そこで本研究では,ゼロショットスロットの補充に挑戦する手法として,適応的なエンドツーエンドの計量学習手法を提案する。
論文参考訳（メタデータ） (2023-10-23T19:01:16Z)
Filling in the Gaps: Efficient Event Coreference Resolution using Graph Autoencoder Networks [0.0]
本稿では,低リソースの言語ドメインに適用されたイベント・コンカレンス・レゾリューション(ECR)の新規かつ効率的な手法を提案する。 ECRをグラフ再構成タスクとすることで、深いセマンティック埋め込みと構造的コア参照チェーンの知識を組み合わせることができる。提案手法は,オランダの大規模イベントコアスコーパスにおいて,古典的参照ペア法よりも優れていた。
論文参考訳（メタデータ） (2023-10-18T13:44:58Z)
Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。 ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文参考訳（メタデータ） (2023-01-09T10:33:14Z)
Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-12T04:42:49Z)
Obtaining Better Static Word Embeddings Using Contextual Embedding Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文参考訳（メタデータ） (2021-06-08T12:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。