論文の概要: Rethinking the Understanding Ability across LLMs through Mutual Information
- arxiv url: http://arxiv.org/abs/2505.23790v1
- Date: Sun, 25 May 2025 22:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.498487
- Title: Rethinking the Understanding Ability across LLMs through Mutual Information
- Title(参考訳): 相互情報によるLLM間の理解能力の再考
- Authors: Shaojie Wang, Sirui Ding, Na Zou,
- Abstract要約: 入力文とその潜在表現(文レベルMI)の間のMIとしての理解を形式化する。
文レベルMIをトークンと文埋め込みの間でトークンレベルMIに分解し、これらの測度を接続する理論的境界を確立する。
我々は、この回復可能性タスクを実装し、異なる言語モデル間でMIを相対的に測定する。
- 参考スコア(独自算出の注目度): 22.16559695572131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have revolutionized natural language processing, yet evaluating their intrinsic linguistic understanding remains challenging. Moving beyond specialized evaluation tasks, we propose an information-theoretic framework grounded in mutual information (MI) to achieve this. We formalize the understanding as MI between an input sentence and its latent representation (sentence-level MI), measuring how effectively input information is preserved in latent representation. Given that LLMs learn embeddings for individual tokens, we decompose sentence-level MI into token-level MI between tokens and sentence embeddings, establishing theoretical bounds connecting these measures. Based on this foundation, we theoretically derive a computable lower bound for token-level MI using Fano's inequality, which directly relates to token-level recoverability-the ability to predict original tokens from sentence embedding. We implement this recoverability task to comparatively measure MI across different LLMs, revealing that encoder-only models consistently maintain higher information fidelity than their decoder-only counterparts, with the latter exhibiting a distinctive late-layer "forgetting" pattern where mutual information is first enhanced and then discarded. Moreover, fine-tuning to maximize token-level recoverability consistently improves understanding ability of LLMs on tasks without task-specific supervision, demonstrating that mutual information can serve as a foundation for understanding and improving language model capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は自然言語処理に革命をもたらしたが、その固有の言語理解を評価することは依然として困難である。
専門的な評価タスクを超えて、相互情報(MI)に基づく情報理論フレームワークを提案する。
入力文とその潜時表現(文レベルMI)の間のMIとしての理解を形式化し、潜時表現において効果的に入力情報が保存されるかを測定する。
LLMは個々のトークンの埋め込みを学習するので、トークンと文の埋め込みの間にトークンレベルのMIを分解し、これらの測度を接続する理論的境界を確立する。
この基礎に基づいて,Fanoの不等式を用いたトークンレベルのMIの計算可能な下限を理論的に導出する。
我々は,この回復可能性タスクを実装し,エンコーダのみのモデルが,デコーダのみのモデルよりも高い情報忠実性を維持していることを示す。
さらに、トークンレベルの回復性を最大化するための微調整は、タスク固有の監督なしに、タスク上のLLMの理解能力を一貫して改善し、相互情報が言語モデル能力の理解と改善の基盤となることを実証する。
関連論文リスト
- F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
単語と画素の対応が視覚的接地によって誘導されるという事実は、十分に訓練されたLMMの注意機構に本質的に存在するという事実に基づいている。
表現セグメンテーションと単視的物語グラウンドベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - Quantifying Semantic Emergence in Language Models [31.608080868988825]
大規模言語モデル (LLM) は意味論的意味を捉える特別な能力として広く認識されている。
本研究では,入力トークンから意味を抽出するLLMの能力を測定するために,量的指標である情報創発(IE)を導入する。
論文 参考訳(メタデータ) (2024-05-21T09:12:20Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。