論文の概要: Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning
- arxiv url: http://arxiv.org/abs/2401.16184v6
- Date: Mon, 14 Oct 2024 04:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:30.930649
- Title: Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning
- Title(参考訳): 語彙決定セマンティックス:文脈内学習改善のための潜在空間クラスタリング
- Authors: Jian Gu, Aldeida Aleti, Chunyang Chen, Hongyu Zhang,
- Abstract要約: コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
- 参考スコア(独自算出の注目度): 32.178931149612644
- License:
- Abstract: In-context learning enables language models (LM) to adapt to downstream data or tasks by incorporating few samples as demonstrations within the prompts. It offers strong performance without the expense of fine-tuning. However, the performance of in-context learning can be unstable depending on the quality, format, or order of demonstrations, which in turn exacerbates the difficulty of optimization. Prior work, such as Knn Prompting, index samples based on the similarities of logits at the output-side, in addition to the regular retrieval operation at the input-side. They improve in-context learning by leveraging the core ability of next-token prediction, rather than relying solely on the emergent capacity to make analogies. Despite this, the hard-to-optimize issue of in-context learning still exists. In our view, it stems from the process of selecting demonstrations. To address this, we propose complementing in-context learning with an additional clustering operation. We propose a novel approach "vocabulary-defined semantics". Grounded in LM vocabulary, which is the label space of model outputs, the proposed approach computes semantically equivalent latent representations for output labels. Then, taking the representations as centroids, a clustering operation is performed to align the semantic properties between the language model and the downstream data/tasks. Based on extensive experiments across diverse textual understanding datasets and multiple models, our approach outperforms the state-of-the-art in terms of effectiveness and efficiency. On average, it achieves $3\%-49\%$ improvements while requiring only half of the computation time.
- Abstract(参考訳): インコンテキスト学習により、言語モデル(LM)は、いくつかのサンプルをプロンプト内にデモとして組み込むことで、下流のデータやタスクに適応することができる。
微調整を犠牲にすることなく、高いパフォーマンスを提供する。
しかし、文脈内学習のパフォーマンスは、品質、フォーマット、またはデモの順序によって不安定になり、それによって最適化の難しさが悪化する。
Knn Promptingのような以前の研究は、入力側の正規検索操作に加えて、出力側のロジットの類似性に基づくインデックスサンプルであった。
彼らは、アナログを作るのに創発的な能力だけに頼るのではなく、次のトーケン予測のコア能力を活用することで、コンテキスト内学習を改善する。
それにもかかわらず、文脈内学習の難解な問題はまだ残っている。
私たちの見解では、それはデモを選択するプロセスに由来する。
そこで本研究では,追加のクラスタリング操作でコンテキスト内学習を補完する手法を提案する。
本稿では,語彙定義意味論(vocabulary-defined semantics)を提案する。
モデル出力のラベル空間であるLM語彙に基づいて,提案手法は意味論的に等価な潜在表現を出力ラベルに対して計算する。
次に、表現をセンタロイドとすることで、言語モデルと下流データ/タスク間のセマンティック特性を整合させるクラスタリング操作を行う。
多様なテキスト理解データセットと複数のモデルにまたがる広範な実験に基づいて、我々のアプローチは、有効性と効率の点で最先端の手法より優れている。
平均して、計算時間の半分しか必要とせず、$3\%-49\%の改善を実現している。
関連論文リスト
- Interpretability of Language Models via Task Spaces [14.543168558734001]
本稿では,解釈言語モデル (LM) の代替手法を提案する。
我々は、LM処理の品質に焦点を合わせ、言語能力に焦点をあてる。
言語現象間の関係を照らす「言語的タスク空間」を構築した。
論文 参考訳(メタデータ) (2024-06-10T16:34:30Z) - ALMol: Aligned Language-Molecule Translation LLMs through Offline Preference Contrastive Optimisation [2.296475290901356]
機械語-分子翻訳に焦点をあて、コントラスト優先最適化と呼ばれる新しい訓練手法を展開する。
その結果,我々のモデルでは,他のモデルと比較して最大32%の改善が達成された。
論文 参考訳(メタデータ) (2024-05-14T13:59:24Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。