論文の概要: Geometry of Decision Making in Language Models
- arxiv url: http://arxiv.org/abs/2511.20315v1
- Date: Tue, 25 Nov 2025 13:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.488558
- Title: Geometry of Decision Making in Language Models
- Title(参考訳): 言語モデルにおける意思決定の幾何学
- Authors: Abhinav Joshi, Divyanshu Bhatt, Ashutosh Modi,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクにまたがる強力な一般化を示すが、それらの予測の背後にある内部決定プロセスは不透明である。
テクスト内在性次元(ID)のレンズを用いたLLMにおける隠れ表現の幾何学について検討する。
我々は28個のオープンウェイトトランスモデルを用いて大規模研究を行い、複数の推定器を用いて層間IDを推定する。
- 参考スコア(独自算出の注目度): 19.74354232642455
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) show strong generalization across diverse tasks, yet the internal decision-making processes behind their predictions remain opaque. In this work, we study the geometry of hidden representations in LLMs through the lens of \textit{intrinsic dimension} (ID), focusing specifically on decision-making dynamics in a multiple-choice question answering (MCQA) setting. We perform a large-scale study, with 28 open-weight transformer models and estimate ID across layers using multiple estimators, while also quantifying per-layer performance on MCQA tasks. Our findings reveal a consistent ID pattern across models: early layers operate on low-dimensional manifolds, middle layers expand this space, and later layers compress it again, converging to decision-relevant representations. Together, these results suggest LLMs implicitly learn to project linguistic inputs onto structured, low-dimensional manifolds aligned with task-specific decisions, providing new geometric insights into how generalization and reasoning emerge in language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにまたがる強力な一般化を示すが、それらの予測の背後にある内部決定プロセスは不透明である。
本研究では,LLMにおける隠れ表現の幾何学を,多点質問応答(MCQA)設定における意思決定ダイナミクスに特化して研究する。
我々は大規模研究を行い、28個のオープンウェイトトランスフォーマーモデルと複数の推定器を用いて層間IDを推定し、MCQAタスク上での層間性能の定量化を行う。
初期層は低次元多様体上で動作し、中層はこの空間を拡大し、後層は再び圧縮し、決定関連表現に収束する。
これらの結果は、LLMが暗黙的に、言語モデルにおける一般化と推論の出現に関する新しい幾何学的洞察を提供するために、タスク固有の決定に沿った構造付き低次元多様体に言語入力を投影することを学習することを示唆している。
関連論文リスト
- Shape Happens: Automatic Feature Manifold Discovery in LLMs via Supervised Multi-Dimensional Scaling [43.70541744169649]
特徴多様体を自動的に検出するモデルに依存しない手法であるSupervised Multi-dimensional Scaling (SMDS)を導入する。
異なる特徴が円、線、クラスターなどの様々な幾何学構造を形成することが分かる。
本研究は,LMが構造表現を符号化し変換するエンティティベースの推論モデルをサポートする特徴多様体の機能的役割について考察した。
論文 参考訳(メタデータ) (2025-10-01T15:30:47Z) - How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding [39.342366994703376]
MLLMが階層間の視覚的およびテキスト的入力をどのように処理するかを分析するための探索フレームワークを導入する。
ステージ単位の構造は、視覚的トークン化、命令チューニングデータ、事前学習コーパスの様々なバリエーションで安定しているが、各ステージシフトごとに特定の層が割り当てられることが示される。
論文 参考訳(メタデータ) (2025-08-27T21:22:01Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Multimodal Language Models See Better When They Look Shallower [54.5303326937134]
マルチモーダル大言語モデル(MLLM)は、通常、事前訓練された視覚変換器(ViT)の最終層から視覚的特徴を抽出する。
MLLMの視覚層選択に関する最初の総合的研究を行い,VT層間の表現類似性を解析した。
我々は、深い層がOCRのようなセマンティックリッチなタスクに優れているのに対して、浅い層と中層の層は、きめ細かい視覚的なタスクでそれらを著しく上回っていることに気付きました。
論文 参考訳(メタデータ) (2025-04-30T09:07:10Z) - Multidimensional Consistency Improves Reasoning in Language Models [21.989335720239467]
複数の入力のバリエーションにまたがる応答整合性のモデルをテストするためのフレームワークを提案する。
我々は, (i) シュート順, (ii) 問題表現, (iii) 言語でのバリエーションを誘導する。
我々のフレームワークは単言語データセットGSM8Kと多言語データセットMGSMの両方、特により小さなモデルにおいて数学的推論性能を一貫して向上させる。
論文 参考訳(メタデータ) (2025-03-04T14:41:05Z) - Understanding the role of FFNs in driving multilingual behaviour in LLMs [0.0]
本稿では,大規模言語モデル群における多言語機能の詳細な分析を行う。
異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
論文 参考訳(メタデータ) (2024-04-22T03:47:00Z) - Exploring Concept Depth: How Large Language Models Acquire Knowledge and Concept at Different Layers? [57.04803703952721]
大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを示している。
しかし、これらのモデルが様々な複雑さのタスクを符号化するメカニズムは、いまだに理解されていない。
概念深さ」の概念を導入し、より複雑な概念が一般的により深い層で得られることを示唆する。
論文 参考訳(メタデータ) (2024-04-10T14:56:40Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Why Lift so Heavy? Slimming Large Language Models by Cutting Off the Layers [9.549646359252346]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対処する際、優れた能力を持っている。
これらのモデルの厳密なサイズは、ストレージ、トレーニング、推論において、層積み重ねによる数十億のパラメータを含むため、課題を生じさせる。
レイヤが少なくても、LLMは、特にテキスト分類タスクのプロンプトベースの微調整において、類似またはより良いパフォーマンスレベルを維持していることを示す。
論文 参考訳(メタデータ) (2024-02-18T20:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。