論文の概要: From Directions to Cones: Exploring Multidimensional Representations of Propositional Facts in LLMs
- arxiv url: http://arxiv.org/abs/2505.21800v1
- Date: Tue, 27 May 2025 22:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.315607
- Title: From Directions to Cones: Exploring Multidimensional Representations of Propositional Facts in LLMs
- Title(参考訳): 方向から円錐へ:LLMにおける命題の多次元表現を探る
- Authors: Stanley Yu, Vaidehi Bulusu, Oscar Yasunaga, Clayton Lau, Cole Blondin, Sean O'Brien, Kevin Zhu, Vasu Sharma,
- Abstract要約: 大きな言語モデル(LLM)は強い会話能力を示すが、しばしば偽りを生成する。
我々は最近、拒絶をモデル化するために導入されたコンセプトコーンフレームワークを、真実の領域に拡張する。
複数のLLMファミリーにまたがる真理関連挙動を因果的に仲介する多次元コーンを同定する。
- 参考スコア(独自算出の注目度): 3.6485741522018724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit strong conversational abilities but often generate falsehoods. Prior work suggests that the truthfulness of simple propositions can be represented as a single linear direction in a model's internal activations, but this may not fully capture its underlying geometry. In this work, we extend the concept cone framework, recently introduced for modeling refusal, to the domain of truth. We identify multi-dimensional cones that causally mediate truth-related behavior across multiple LLM families. Our results are supported by three lines of evidence: (i) causal interventions reliably flip model responses to factual statements, (ii) learned cones generalize across model architectures, and (iii) cone-based interventions preserve unrelated model behavior. These findings reveal the richer, multidirectional structure governing simple true/false propositions in LLMs and highlight concept cones as a promising tool for probing abstract behaviors.
- Abstract(参考訳): 大きな言語モデル(LLM)は強い会話能力を示すが、しばしば偽りを生成する。
以前の研究は、単純な命題の真理性はモデルの内部の活性化において単一の線型方向として表せることを示唆しているが、これはその基礎となる幾何学を完全には捉えないかもしれない。
本研究は、最近、拒絶をモデル化するために導入されたコンセプトコーンフレームワークを、真理の領域に拡張する。
複数のLLMファミリーにまたがる真理関連挙動を因果的に仲介する多次元コーンを同定する。
我々の結果は3つの証拠によって支えられている。
(i)因果的介入は、モデル応答を事実的ステートメントに確実に反転させる。
(二)学習円錐が模型建築にまたがって一般化し、
三 コーンに基づく介入が無関係なモデル行動を維持すること。
これらの結果から,LLMにおける単純真偽命題を規定するよりリッチで多方向的な構造が明らかとなり,抽象的な振る舞いを探索するための有望なツールとして概念コーンが強調された。
関連論文リスト
- Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models [77.98801218316505]
大型言語モデル(LLM)は、人間のような推論を示唆する創発的な行動を示す。
テキスト内概念推論におけるLLMの内部処理について検討する。
論文 参考訳(メタデータ) (2026-02-08T03:14:39Z) - The Shape of Beliefs: Geometry, Dynamics, and Interventions along Representation Manifolds of Language Models' Posteriors [24.477029700560113]
大規模言語モデル(LLM)は、迅速な条件付き信念(回答とクレームに対する後見者)を表す。
Llama-3.2はそのパラメータを暗黙的に推論することで、正規分布からサンプルを生成する制御条件について検討する。
これらのパラメータに対する曲線 "ビリーフ多様体" の表現は、十分な文脈内学習によって形成される。
論文 参考訳(メタデータ) (2026-02-02T16:45:05Z) - Emergence of Linear Truth Encodings in Language Models [64.86571541830598]
大規模言語モデルは偽文と真を区別する線形部分空間を示すが、それらの出現のメカニズムは不明確である。
このような真理部分空間をエンドツーエンドに再現する,透明な一層トランスフォーマー玩具モデルを導入する。
本研究では,真理エンコーディングが実現可能な単純な設定について検討し,将来のトークンにおけるLM損失を減らすために,この区別を学習するようモデルに促す。
論文 参考訳(メタデータ) (2025-10-17T16:30:07Z) - Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces [31.401762286885656]
大規模言語モデル(LLM)の空間幾何学を理解することは、それらの振る舞いを解釈し、アライメントを改善する鍵となる。
baturay LLMが意味理解に関連する内部的な組織構造を調査する。
論文 参考訳(メタデータ) (2025-07-13T17:03:25Z) - Escaping Plato's Cave: JAM for Aligning Independently Trained Vision and Language Models [30.07172193932125]
本稿では,JAM(Joint Autoencoder Modulator)が独立に訓練された表現のアライメントを誘導することを示す。
本研究は, 共通意味論の構造に関する理論的知見と, 一般論的な一助的基礎を専門的マルチモーダルモデルに変換するための実践的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-07-01T21:43:50Z) - Linear Representation Transferability Hypothesis: Leveraging Small Models to Steer Large Models [6.390475802910619]
同一データ上で訓練されたモデル間で学習された表現は、基本特徴の近辺集合の線形結合として表現できることを示す。
これらの基本機能は、学習タスク自体を基盤とし、スケールに関係なく、モデル間で一貫性を維持します。
論文 参考訳(メタデータ) (2025-05-31T17:45:18Z) - Exploring the Hidden Reasoning Process of Large Language Models by Misleading Them [5.4908640334628345]
大規模言語モデル (LLM) とビジョン言語モデル (VLM) は様々な推論タスクを実行できる。
我々は,LLM/VLMが抽象的推論を行うかどうかを調べるために,新しい実験手法であるMisleading Fine-Tuning(MisFT)を提案する。
論文 参考訳(メタデータ) (2025-03-20T17:54:42Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - UniHR: Hierarchical Representation Learning for Unified Knowledge Graph Link Prediction [59.84402324458322]
実世界の知識グラフ(英語版) (KGs) は標準的な三つの事実だけでなく、より複雑で異種な事実も含んでいる。
ハイパーリレーショナルKG,時間的KG,ネストした事実KGを3次元表現に統一する学習フレームワークであるUniHRを提案する。
5種類のKGにまたがる9つのデータセットの実験は、UniHRの有効性を示し、統一表現の強い可能性を強調している。
論文 参考訳(メタデータ) (2024-11-11T14:22:42Z) - Large Language Models as Markov Chains [7.078696932669912]
有限状態空間上で定義された自己回帰変換言語モデルとマルコフ連鎖の同値性を描く。
以上の結果とLLMで観察された病理行動との関連性を検討した。
最新のLlamaとGemmaのモデル群による実験は、我々の理論が実際にそれらの振る舞いを正しく捉えていることを示している。
論文 参考訳(メタデータ) (2024-10-03T17:45:31Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。
近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。
十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - ConE: Cone Embeddings for Multi-Hop Reasoning over Knowledge Graphs [73.86041481470261]
Cone Embeddings (ConE) は、接続、解離、否定を扱える最初の幾何学ベースのクエリ埋め込みモデルである。
ConEは、ベンチマークデータセットの既存の最先端メソッドを大幅に上回る。
論文 参考訳(メタデータ) (2021-10-26T14:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。