論文の概要: On the Semantics of LM Latent Space: A Vocabulary-defined Approach
- arxiv url: http://arxiv.org/abs/2401.16184v3
- Date: Mon, 12 Feb 2024 11:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:45:27.516927
- Title: On the Semantics of LM Latent Space: A Vocabulary-defined Approach
- Title(参考訳): LM潜在空間のセマンティックス--語彙定義によるアプローチ
- Authors: Jian Gu, Chunyang Chen, Aldeida Aleti
- Abstract要約: 本稿では,LM潜在空間内で参照フレームを確立する語彙定義セマンティクスを提案する。
我々のアプローチは、モデル中心の洞察にLM語彙を活用する、事前の絡み合った分析を超越する。
また,ロジットを計算し,微分可能性や局所等方性を重視した新しい手法を提案する。
- 参考スコア(独自算出の注目度): 29.55309950026882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the latent space of language models (LM) is crucial to refining
their performance and interpretability. Existing analyses often fall short in
providing disentangled (model-centric) insights into LM semantics, and neglect
essential aspects of LM adaption. In response, we introduce a pioneering method
called vocabulary-defined semantics, which establishes a reference frame within
the LM latent space, ensuring disentangled semantic analysis grounded in LM
vocabulary. Our approach transcends prior entangled analysis, leveraging LM
vocabulary for model-centric insights. Furthermore, we propose a novel
technique to compute logits, emphasising differentiability and local isotropy,
and introduce a neural clustering module for semantically calibrating data
representations during LM adaptation. Through extensive experiments across
diverse text understanding datasets, our approach outperforms state-of-the-art
methods of retrieval-augmented generation and parameter-efficient finetuning,
showcasing its efficacy and broad applicability. Our findings not only shed
light on LM mechanics, but also offer practical solutions to enhance LM
performance and interpretability.
- Abstract(参考訳): 言語モデル(lm)の潜在空間を理解することは、その性能と解釈可能性を高めるために不可欠である。
既存の分析は、LMセマンティクスに不整合(モデル中心)な洞察を与え、LM適応の本質的な側面を無視している。
この手法は,LMの潜在空間内で参照フレームを確立し,LMの語彙を基盤とした非絡み合った意味解析を確実にする。
我々のアプローチは、モデル中心の洞察にLM語彙を活用する、事前の絡み合った分析を超越する。
さらに,微分性と局所等方性を重視したロジット計算手法を提案し,lm適応時のデータ表現を意味的に校正するニューラルネットワークモジュールを提案する。
多様なテキスト理解データセットにわたる広範な実験を通じて,本手法は検索強化生成とパラメータ効率の微調整の最先端手法より優れ,その有効性と適用性を示している。
本研究は, LM力学に光を当てるだけでなく, LM性能と解釈可能性を高めるための実用的ソリューションも提供する。
関連論文リスト
- Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [64.33702161898469]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Pedagogical Alignment of Large Language Models [26.68545613232345]
本稿では,Large Language Models (LLM) の新たな概念について紹介する。
LLMは足場ツールとして機能し、複雑な問題を管理可能なサブプロブレムに分解し、建設的なフィードバックとヒントを通じて最終回答へと導く。
本研究では、アライメントのレンズを通してタスクを観察することで物語を再解釈し、RLHF法がいかに優れた代替手段として自然に現れるかを実証する。
論文 参考訳(メタデータ) (2024-02-07T16:15:59Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。