論文の概要: From Directions to Cones: Exploring Multidimensional Representations of Propositional Facts in LLMs
- arxiv url: http://arxiv.org/abs/2505.21800v1
- Date: Tue, 27 May 2025 22:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.315607
- Title: From Directions to Cones: Exploring Multidimensional Representations of Propositional Facts in LLMs
- Title(参考訳): 方向から円錐へ:LLMにおける命題の多次元表現を探る
- Authors: Stanley Yu, Vaidehi Bulusu, Oscar Yasunaga, Clayton Lau, Cole Blondin, Sean O'Brien, Kevin Zhu, Vasu Sharma,
- Abstract要約: 大きな言語モデル(LLM)は強い会話能力を示すが、しばしば偽りを生成する。
我々は最近、拒絶をモデル化するために導入されたコンセプトコーンフレームワークを、真実の領域に拡張する。
複数のLLMファミリーにまたがる真理関連挙動を因果的に仲介する多次元コーンを同定する。
- 参考スコア(独自算出の注目度): 3.6485741522018724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit strong conversational abilities but often generate falsehoods. Prior work suggests that the truthfulness of simple propositions can be represented as a single linear direction in a model's internal activations, but this may not fully capture its underlying geometry. In this work, we extend the concept cone framework, recently introduced for modeling refusal, to the domain of truth. We identify multi-dimensional cones that causally mediate truth-related behavior across multiple LLM families. Our results are supported by three lines of evidence: (i) causal interventions reliably flip model responses to factual statements, (ii) learned cones generalize across model architectures, and (iii) cone-based interventions preserve unrelated model behavior. These findings reveal the richer, multidirectional structure governing simple true/false propositions in LLMs and highlight concept cones as a promising tool for probing abstract behaviors.
- Abstract(参考訳): 大きな言語モデル(LLM)は強い会話能力を示すが、しばしば偽りを生成する。
以前の研究は、単純な命題の真理性はモデルの内部の活性化において単一の線型方向として表せることを示唆しているが、これはその基礎となる幾何学を完全には捉えないかもしれない。
本研究は、最近、拒絶をモデル化するために導入されたコンセプトコーンフレームワークを、真理の領域に拡張する。
複数のLLMファミリーにまたがる真理関連挙動を因果的に仲介する多次元コーンを同定する。
我々の結果は3つの証拠によって支えられている。
(i)因果的介入は、モデル応答を事実的ステートメントに確実に反転させる。
(二)学習円錐が模型建築にまたがって一般化し、
三 コーンに基づく介入が無関係なモデル行動を維持すること。
これらの結果から,LLMにおける単純真偽命題を規定するよりリッチで多方向的な構造が明らかとなり,抽象的な振る舞いを探索するための有望なツールとして概念コーンが強調された。
関連論文リスト
- Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces [31.401762286885656]
大規模言語モデル(LLM)の空間幾何学を理解することは、それらの振る舞いを解釈し、アライメントを改善する鍵となる。
baturay LLMが意味理解に関連する内部的な組織構造を調査する。
論文 参考訳(メタデータ) (2025-07-13T17:03:25Z) - Linear Representation Transferability Hypothesis: Leveraging Small Models to Steer Large Models [6.390475802910619]
同一データ上で訓練されたモデル間で学習された表現は、基本特徴の近辺集合の線形結合として表現できることを示す。
これらの基本機能は、学習タスク自体を基盤とし、スケールに関係なく、モデル間で一貫性を維持します。
論文 参考訳(メタデータ) (2025-05-31T17:45:18Z) - Exploring the Hidden Reasoning Process of Large Language Models by Misleading Them [5.4908640334628345]
大規模言語モデル (LLM) とビジョン言語モデル (VLM) は様々な推論タスクを実行できる。
我々は,LLM/VLMが抽象的推論を行うかどうかを調べるために,新しい実験手法であるMisleading Fine-Tuning(MisFT)を提案する。
論文 参考訳(メタデータ) (2025-03-20T17:54:42Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Large Language Models as Markov Chains [7.078696932669912]
有限状態空間上で定義された自己回帰変換言語モデルとマルコフ連鎖の同値性を描く。
以上の結果とLLMで観察された病理行動との関連性を検討した。
最新のLlamaとGemmaのモデル群による実験は、我々の理論が実際にそれらの振る舞いを正しく捉えていることを示している。
論文 参考訳(メタデータ) (2024-10-03T17:45:31Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。
近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。
十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - ConE: Cone Embeddings for Multi-Hop Reasoning over Knowledge Graphs [73.86041481470261]
Cone Embeddings (ConE) は、接続、解離、否定を扱える最初の幾何学ベースのクエリ埋め込みモデルである。
ConEは、ベンチマークデータセットの既存の最先端メソッドを大幅に上回る。
論文 参考訳(メタデータ) (2021-10-26T14:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。