論文の概要: From Directions to Cones: Exploring Multidimensional Representations of Propositional Facts in LLMs
- arxiv url: http://arxiv.org/abs/2505.21800v1
- Date: Tue, 27 May 2025 22:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.315607
- Title: From Directions to Cones: Exploring Multidimensional Representations of Propositional Facts in LLMs
- Title(参考訳): 方向から円錐へ:LLMにおける命題の多次元表現を探る
- Authors: Stanley Yu, Vaidehi Bulusu, Oscar Yasunaga, Clayton Lau, Cole Blondin, Sean O'Brien, Kevin Zhu, Vasu Sharma,
- Abstract要約: 大きな言語モデル(LLM)は強い会話能力を示すが、しばしば偽りを生成する。
我々は最近、拒絶をモデル化するために導入されたコンセプトコーンフレームワークを、真実の領域に拡張する。
複数のLLMファミリーにまたがる真理関連挙動を因果的に仲介する多次元コーンを同定する。
- 参考スコア(独自算出の注目度): 3.6485741522018724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit strong conversational abilities but often generate falsehoods. Prior work suggests that the truthfulness of simple propositions can be represented as a single linear direction in a model's internal activations, but this may not fully capture its underlying geometry. In this work, we extend the concept cone framework, recently introduced for modeling refusal, to the domain of truth. We identify multi-dimensional cones that causally mediate truth-related behavior across multiple LLM families. Our results are supported by three lines of evidence: (i) causal interventions reliably flip model responses to factual statements, (ii) learned cones generalize across model architectures, and (iii) cone-based interventions preserve unrelated model behavior. These findings reveal the richer, multidirectional structure governing simple true/false propositions in LLMs and highlight concept cones as a promising tool for probing abstract behaviors.
- Abstract(参考訳): 大きな言語モデル(LLM)は強い会話能力を示すが、しばしば偽りを生成する。
以前の研究は、単純な命題の真理性はモデルの内部の活性化において単一の線型方向として表せることを示唆しているが、これはその基礎となる幾何学を完全には捉えないかもしれない。
本研究は、最近、拒絶をモデル化するために導入されたコンセプトコーンフレームワークを、真理の領域に拡張する。
複数のLLMファミリーにまたがる真理関連挙動を因果的に仲介する多次元コーンを同定する。
我々の結果は3つの証拠によって支えられている。
(i)因果的介入は、モデル応答を事実的ステートメントに確実に反転させる。
(二)学習円錐が模型建築にまたがって一般化し、
三 コーンに基づく介入が無関係なモデル行動を維持すること。
これらの結果から,LLMにおける単純真偽命題を規定するよりリッチで多方向的な構造が明らかとなり,抽象的な振る舞いを探索するための有望なツールとして概念コーンが強調された。
関連論文リスト
- Exploring the Hidden Reasoning Process of Large Language Models by Misleading Them [5.4908640334628345]
大規模言語モデル (LLM) とビジョン言語モデル (VLM) は様々な推論タスクを実行できる。
我々は,LLM/VLMが抽象的推論を行うかどうかを調べるために,新しい実験手法であるMisleading Fine-Tuning(MisFT)を提案する。
論文 参考訳(メタデータ) (2025-03-20T17:54:42Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Large Language Models as Markov Chains [7.078696932669912]
有限状態空間上で定義された自己回帰変換言語モデルとマルコフ連鎖の同値性を描く。
以上の結果とLLMで観察された病理行動との関連性を検討した。
最新のLlamaとGemmaのモデル群による実験は、我々の理論が実際にそれらの振る舞いを正しく捉えていることを示している。
論文 参考訳(メタデータ) (2024-10-03T17:45:31Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。
近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。
十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。