論文の概要: How Language Models Conflate Logical Validity with Plausibility: A Representational Analysis of Content Effects
- arxiv url: http://arxiv.org/abs/2510.06700v1
- Date: Wed, 08 Oct 2025 06:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.338249
- Title: How Language Models Conflate Logical Validity with Plausibility: A Representational Analysis of Content Effects
- Title(参考訳): 言語モデルが論理的妥当性と可塑性をどう相関させるか:内容効果の表現論的分析
- Authors: Leonardo Bertolazzi, Sandro Pezzelle, Raffaelle Bernardi,
- Abstract要約: 人間と大規模言語モデル(LLM)は、内容効果を示す: 推論問題の意味的内容の妥当性が、その論理的妥当性に関する判断に影響を与えるバイアス。
両概念が線形に表現され、表現幾何学に強く整合していることが示され、モデルが妥当性と妥当性を詳述する。
ステアリングベクトルを用いて、確率ベクトルは因果バイアスの妥当性判定が可能であり、その逆も可能であり、これらの2つの概念間のアライメントの程度は、モデル間での行動内容の影響の大きさを予測することを実証する。
- 参考スコア(独自算出の注目度): 6.503236297532475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both humans and large language models (LLMs) exhibit content effects: biases in which the plausibility of the semantic content of a reasoning problem influences judgments regarding its logical validity. While this phenomenon in humans is best explained by the dual-process theory of reasoning, the mechanisms behind content effects in LLMs remain unclear. In this work, we address this issue by investigating how LLMs encode the concepts of validity and plausibility within their internal representations. We show that both concepts are linearly represented and strongly aligned in representational geometry, leading models to conflate plausibility with validity. Using steering vectors, we demonstrate that plausibility vectors can causally bias validity judgements, and vice versa, and that the degree of alignment between these two concepts predicts the magnitude of behavioral content effects across models. Finally, we construct debiasing vectors that disentangle these concepts, reducing content effects and improving reasoning accuracy. Our findings advance understanding of how abstract logical concepts are represented in LLMs and highlight representational interventions as a path toward more logical systems.
- Abstract(参考訳): 人間と大規模言語モデル(LLM)は、内容効果を示す: 推論問題の意味的内容の妥当性が、その論理的妥当性に関する判断に影響を与えるバイアス。
ヒトにおけるこの現象は、推論の二重過程理論によって最もよく説明されているが、LLMにおける内容効果のメカニズムはいまだ不明である。
本研究では,LLMが内部表現の妥当性と妥当性をエンコードする方法を検討することにより,この問題に対処する。
両概念が線形に表現され、表現幾何学に強く整合していることが示され、モデルが妥当性と妥当性を詳述する。
ステアリングベクターを用いて、確率ベクトルは因果バイアスの妥当性判定が可能であり、その逆も可能であり、これらの2つの概念間のアライメントの程度がモデル間での行動内容効果の程度を予測することを実証する。
最後に,これらの概念を乱し,内容効果を低減し,推論精度を向上させる脱バイアスベクトルを構築した。
本研究は,LLMにおける抽象的論理概念の表現方法の理解を深め,より論理的なシステムへの道筋として表現的介入を強調した。
関連論文リスト
- Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Cognitive Inception: Agentic Reasoning against Visual Deceptions by Injecting Skepticism [81.39177645864757]
完全推論に基づくエージェント推論フレームワークであるtextbfInception を提案する。
私たちの知る限りでは、AIGCの視覚的騙しに対する完全な推論ベースのフレームワークとしてはこれが初めてです。
論文 参考訳(メタデータ) (2025-11-21T05:13:30Z) - The Geometry of Reasoning: Flowing Logics in Representation Space [27.047532187192278]
大規模言語モデル(LLM)が表現空間を通してどのように考えるかを研究する。
フローとしてのLCMの推論をモデル化する新しい幾何学的枠組みを提案する。
論文 参考訳(メタデータ) (2025-10-10T18:44:00Z) - LLM Assertiveness can be Mechanistically Decomposed into Emotional and Logical Components [0.17188280334580197]
LLM(Large Language Models)は、しばしば過剰な自信を示し、高い文脈で不確実性のある情報を提示する。
我々は、人間の注釈付きアサーション性データセットを微調整したオープンソースのLlama 3.2モデルを使用している。
分析により,アサーションのコントラストに最も敏感な層が同定され,高いアサーティブ表現が感情的・論理的クラスタの2つのサブコンポーネントに分解されることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-24T01:43:48Z) - Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [76.42159902257677]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。
OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。
我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文 参考訳(メタデータ) (2025-06-12T16:50:45Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering [14.298418197820912]
大規模言語モデル(LLM)は、しばしば推論の限界を示し、しばしば内容の妥当性を論理的妥当性と混同する。
これは偏りのある推論を生じさせ、そこではもっともらしい議論は論理的に妥当か、あるいはその逆であると見なされる。
本稿では,アクティベーションステアリングによる形式推論におけるコンテンツバイアス軽減の問題について検討する。
論文 参考訳(メタデータ) (2025-05-18T01:34:34Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z) - Contrastive Reasoning in Neural Networks [26.65337569468343]
因果クラス依存性を識別する機能に基づいて構築された推論は、フィードフォワード推論と呼ばれる。
本稿では,コントラスト推論の構造を形式化し,ニューラルネットワークのコントラスト概念を抽出する手法を提案する。
平均精度の3.47%、2.56%、5.48%の改善を報告することにより、歪み下での対比認識の価値を実証する。
論文 参考訳(メタデータ) (2021-03-23T05:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。