論文の概要: How Language Models Conflate Logical Validity with Plausibility: A Representational Analysis of Content Effects
- arxiv url: http://arxiv.org/abs/2510.06700v1
- Date: Wed, 08 Oct 2025 06:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.338249
- Title: How Language Models Conflate Logical Validity with Plausibility: A Representational Analysis of Content Effects
- Title(参考訳): 言語モデルが論理的妥当性と可塑性をどう相関させるか:内容効果の表現論的分析
- Authors: Leonardo Bertolazzi, Sandro Pezzelle, Raffaelle Bernardi,
- Abstract要約: 人間と大規模言語モデル(LLM)は、内容効果を示す: 推論問題の意味的内容の妥当性が、その論理的妥当性に関する判断に影響を与えるバイアス。
両概念が線形に表現され、表現幾何学に強く整合していることが示され、モデルが妥当性と妥当性を詳述する。
ステアリングベクトルを用いて、確率ベクトルは因果バイアスの妥当性判定が可能であり、その逆も可能であり、これらの2つの概念間のアライメントの程度は、モデル間での行動内容の影響の大きさを予測することを実証する。
- 参考スコア(独自算出の注目度): 6.503236297532475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both humans and large language models (LLMs) exhibit content effects: biases in which the plausibility of the semantic content of a reasoning problem influences judgments regarding its logical validity. While this phenomenon in humans is best explained by the dual-process theory of reasoning, the mechanisms behind content effects in LLMs remain unclear. In this work, we address this issue by investigating how LLMs encode the concepts of validity and plausibility within their internal representations. We show that both concepts are linearly represented and strongly aligned in representational geometry, leading models to conflate plausibility with validity. Using steering vectors, we demonstrate that plausibility vectors can causally bias validity judgements, and vice versa, and that the degree of alignment between these two concepts predicts the magnitude of behavioral content effects across models. Finally, we construct debiasing vectors that disentangle these concepts, reducing content effects and improving reasoning accuracy. Our findings advance understanding of how abstract logical concepts are represented in LLMs and highlight representational interventions as a path toward more logical systems.
- Abstract(参考訳): 人間と大規模言語モデル(LLM)は、内容効果を示す: 推論問題の意味的内容の妥当性が、その論理的妥当性に関する判断に影響を与えるバイアス。
ヒトにおけるこの現象は、推論の二重過程理論によって最もよく説明されているが、LLMにおける内容効果のメカニズムはいまだ不明である。
本研究では,LLMが内部表現の妥当性と妥当性をエンコードする方法を検討することにより,この問題に対処する。
両概念が線形に表現され、表現幾何学に強く整合していることが示され、モデルが妥当性と妥当性を詳述する。
ステアリングベクターを用いて、確率ベクトルは因果バイアスの妥当性判定が可能であり、その逆も可能であり、これらの2つの概念間のアライメントの程度がモデル間での行動内容効果の程度を予測することを実証する。
最後に,これらの概念を乱し,内容効果を低減し,推論精度を向上させる脱バイアスベクトルを構築した。
本研究は,LLMにおける抽象的論理概念の表現方法の理解を深め,より論理的なシステムへの道筋として表現的介入を強調した。
関連論文リスト
- LLM Assertiveness can be Mechanistically Decomposed into Emotional and Logical Components [0.17188280334580197]
LLM(Large Language Models)は、しばしば過剰な自信を示し、高い文脈で不確実性のある情報を提示する。
我々は、人間の注釈付きアサーション性データセットを微調整したオープンソースのLlama 3.2モデルを使用している。
分析により,アサーションのコントラストに最も敏感な層が同定され,高いアサーティブ表現が感情的・論理的クラスタの2つのサブコンポーネントに分解されることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-24T01:43:48Z) - Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [76.42159902257677]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。
OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。
我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-06-12T16:50:45Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z) - Contrastive Reasoning in Neural Networks [26.65337569468343]
因果クラス依存性を識別する機能に基づいて構築された推論は、フィードフォワード推論と呼ばれる。
本稿では,コントラスト推論の構造を形式化し,ニューラルネットワークのコントラスト概念を抽出する手法を提案する。
平均精度の3.47%、2.56%、5.48%の改善を報告することにより、歪み下での対比認識の価値を実証する。
論文 参考訳(メタデータ) (2021-03-23T05:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。