論文の概要: Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs
- arxiv url: http://arxiv.org/abs/2603.03415v1
- Date: Tue, 03 Mar 2026 18:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.047044
- Title: Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs
- Title(参考訳): 変化の遠方、表現のスペーサー:LDMにおけるOOD機構の解析
- Authors: Mingyu Jin, Yutong Yin, Jingcheng Niu, Qingcheng Zeng, Wujiang Xu, Mengnan Du, Wei Cheng, Zhaoran Wang, Tianlong Chen, Dimitris N. Metaxas,
- Abstract要約: 難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
- 参考スコア(独自算出の注目度): 100.02824137397464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we investigate how Large Language Models (LLMs) adapt their internal representations when encountering inputs of increasing difficulty, quantified as the degree of out-of-distribution (OOD) shift. We reveal a consistent and quantifiable phenomenon: as task difficulty increases, whether through harder reasoning questions, longer contexts, or adding answer choices, the last hidden states of LLMs become substantially sparser. In short, \textbf{\textit{the farther the shift, the sparser the representations}}. This sparsity--difficulty relation is observable across diverse models and domains, suggesting that language models respond to unfamiliar or complex inputs by concentrating computation into specialized subspaces in the last hidden state. Through a series of controlled analyses with a learning dynamic explanation, we demonstrate that this sparsity is not incidental but an adaptive mechanism for stabilizing reasoning under OOD. Leveraging this insight, we design \textit{Sparsity-Guided Curriculum In-Context Learning (SG-ICL)}, a strategy that explicitly uses representation sparsity to schedule few-shot demonstrations, leading to considerable performance enhancements. Our study provides new mechanistic insights into how LLMs internalize OOD challenges. The source code is available at the URL: https://github.com/MingyuJ666/sparsityLLM.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) が,困難度を増大させる入力に遭遇する際の内部表現をどのように適応させるのかを,アウト・オブ・ディストリビューション(OOD)シフトの度合いとして定量化する。
タスクの難易度が増大するにつれて、より難しい推論の質問、より長いコンテキスト、あるいは答えの選択を加えることによって、LLMの最後の隠れ状態は実質的にスペーサーになる。
簡単に言うと、 \textbf{\textit{the far the shift, the sparser the representations}}である。
このスパース性-微分的関係は、様々なモデルやドメインで観測可能であり、最後の隠れ状態の特別な部分空間に計算を集中させることで、言語モデルが不慣れなあるいは複雑な入力に応答することを示唆している。
学習動的説明を用いた一連の制御解析を通して、この空間性は偶発的ではなく、OOD下での推論を安定化するための適応的なメカニズムであることを示した。
この知見を活用して、表現空間を明示的に使用して数発のデモをスケジュールする戦略である「textit{Sparsity-Guided Curriculum In-Context Learning (SG-ICL)} を設計し、パフォーマンスを著しく向上させる。
我々の研究は、LDMがOODの課題をどのように内包するかに関する新しい力学的な洞察を提供する。
ソースコードはURLで入手できる。 https://github.com/MingyuJ666/sparsityLLM。
関連論文リスト
- Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation [59.40886078302025]
マルチモーダル大規模言語モデル(MLLM)は、視覚入力と自然言語出力の整合性を示す。
しかし、生成したトークンが視覚的モダリティに依存する範囲は、いまだに理解されていない。
MLLMにおける自己回帰トークン生成を説明するための軽量なブラックボックスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T15:38:42Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking [38.8730008545358]
大規模言語モデル(LLM)は、しばしばその推論に頑健さを欠いている。
このアプローチは、推論の問題に重点を置いています。
この抽象化プロセスは、単に教師付き微調整よりも強化学習(RL)によりより良く得られる。
論文 参考訳(メタデータ) (2025-06-09T13:34:50Z) - MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。
MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。
本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文 参考訳(メタデータ) (2025-05-24T11:49:31Z) - MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning? [21.638848019633595]
我々は、パターン認識のための最初のマルチショットインコンテキスト推論ベンチマークであるMIR-Benchを提案する。
テキスト内推論における多くの新しい問題について検討し,多くの知見を得た。
論文 参考訳(メタデータ) (2025-02-14T06:05:12Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Randomly Sampled Language Reasoning Problems Elucidate Limitations of In-Context Learning [9.75748930802634]
機械学習の性能を向上させるために,テキスト内学習の能力について検討する。
非常に単純なドメインを考える: 単純な言語タスクにおける次のトークン予測。
この課題において LLM は n-gram モデルに一様に劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - Sparse Autoencoders Reveal Temporal Difference Learning in Large Language Models [7.115323364355489]
インコンテキスト学習(In-context learning)は、入力プロンプトのいくつかの例に基づいて適応する能力であり、大きな言語モデル(LLM)のユビキタスな特徴である。
最初に、Llamaが$70$Bで、コンテキスト内で単純なRL問題を解くことができることを示す。
次に、スパースオートエンコーダ(SAE)を用いてLlamaの残差ストリームを分析し、時間差(TD)誤差によく一致する表現を求める。
論文 参考訳(メタデータ) (2024-10-02T06:51:12Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。
複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。
本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。