論文の概要: CoSToM:Causal-oriented Steering for Intrinsic Theory-of-Mind Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.10031v1
- Date: Sat, 11 Apr 2026 05:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.801572
- Title: CoSToM:Causal-oriented Steering for Intrinsic Theory-of-Mind Alignment in Large Language Models
- Title(参考訳): CoSToM:大規模言語モデルにおける内在的アライメント理論のための因果方向ステアリング
- Authors: Mengfan Li, Xuanhua Shi, Yang Deng,
- Abstract要約: 心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。
LLMは標準のToMベンチマークで有望なパフォーマンスを示す。
LLMは複雑なタスク固有のシナリオへの一般化に失敗することが多い。
- 参考スコア(独自算出の注目度): 23.229692182223157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theory of Mind (ToM), the ability to attribute mental states to others, is a hallmark of social intelligence. While large language models (LLMs) demonstrate promising performance on standard ToM benchmarks, we observe that they often fail to generalize to complex task-specific scenarios, relying heavily on prompt scaffolding to mimic reasoning. The critical misalignment between the internal knowledge and external behavior raises a fundamental question: Do LLMs truly possess intrinsic cognition, and can they externalize this internal knowledge into stable, high-quality behaviors? To answer this, we introduce CoSToM (Causal-oriented Steering for ToM alignment), a framework that transitions from mechanistic interpretation to active intervention. First, we employ causal tracing to map the internal distribution of ToM features, empirically uncovering the internal layers' characteristics in encoding fundamental ToM semantics. Building on this insight, we implement a lightweight alignment framework via targeted activation steering within these ToM-critical layers. Experiments demonstrate that CoSToM significantly enhances human-like social reasoning capabilities and downstream dialogue quality.
- Abstract(参考訳): 心の理論 (Theory of Mind, ToM) は、心の状態を他人に説明できる能力であり、社会知性の目印である。
大規模言語モデル(LLM)は標準のToMベンチマークで有望な性能を示すが、複雑なタスク固有のシナリオへの一般化に失敗することがしばしばあり、推論を模倣する素早い足場に大きく依存している。
内的知識と外的行動の重大な相違は、根本的な疑問を引き起こす: LLMは真に本質的な認知を持ち、内的知識を安定的で高品質な行動に外部化することができるか?
これに対応するために,機械的解釈からアクティブな介入へ移行するフレームワークであるCoSToM(Causal-oriented Steering for ToMアライメントのためのCausal-oriented Steering)を紹介した。
まず、基本的なToMセマンティクスを符号化する際に、内部層の特徴を実証的に明らかにし、ToM機能の内部分布をマッピングするために因果トレースを用いる。
この知見に基づいて、これらのToMクリティカルな層内でのアクティベーションステアリングを目標とする軽量アライメントフレームワークを実装した。
実験により、CoSToMは人間のような社会的推論能力と下流の対話品質を著しく向上させることが示された。
関連論文リスト
- Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind [8.740788873949471]
大規模言語モデル(LLM)は急速に発展し、汎用タスクと専門タスクの両方に広く応用されている。
意図や指示が不正確に伝達されるとき、彼らは依然として、真のユーザニーズを理解し、応答するのに苦労しています。
論文 参考訳(メタデータ) (2026-02-14T16:01:59Z) - Investigating The Functional Roles of Attention Heads in Vision Language Models: Evidence for Reasoning Modules [76.21320451720764]
複雑なマルチモーダル質問をステップバイステップのサブクエストに分解するデータセットであるCogVisionを紹介した。
探索に基づく手法を用いて,これらの機能に特化して機能的頭部として特徴付けるアテンションヘッドを同定する。
分析の結果、これらの機能ヘッドは普遍的に疎結合であり、機能間の数や分布が異なり、相互作用や階層的な組織を仲介することがわかった。
論文 参考訳(メタデータ) (2025-12-11T05:42:53Z) - The Unified Cognitive Consciousness Theory for Language Models: Anchoring Semantics, Thresholds of Activation, and Emergent Reasoning [2.0800882594868293]
統一認知意識理論(UCCT)は、これらを巨大な無意識パターンリポジトリとみなしている。
UCCTはこの過程を、事前学習で学んだ統計的事前学習と文脈駆動のターゲットパターンの間のベイズ的競争として定式化している。
我々はこの理論を、しきい値交差、モダリティ、密度距離予測力の3つの原理で基礎づける。
論文 参考訳(メタデータ) (2025-06-02T18:12:43Z) - Scaling and Beyond: Advancing Spatial Reasoning in MLLMs Requires New Recipes [84.1059652774853]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - Brittle Minds, Fixable Activations: Understanding Belief Representations in Language Models [9.318796743761224]
言語モデル(LM)を評価するための心の理論(ToM)タスクへの関心が高まりつつあるが、LMが自己や他者の精神状態を内部的にどのように表現しているかについては、ほとんど分かっていない。
本研究は、異なるスケールのモデル、トレーニングレギュラー、プロンプトを探索することで、LMにおける信念表現を初めて体系的に研究するものである。
我々の実験は、モデルサイズと微調整の両方が、他者の信念に対するLMの内部表現を大幅に改善する証拠を提供する。
論文 参考訳(メタデータ) (2024-06-25T12:51:06Z) - Calibrating Reasoning in Language Models with Internal Consistency [18.24350001344488]
大規模言語モデル(LLM)は、様々な推論タスクにおいて印象的な機能を示している。
LLMは、しばしば明らかな誤りと矛盾のあるテキストを生成する。
本研究では,LLMにおける内部表現のレンズによる推論について検討する。
論文 参考訳(メタデータ) (2024-05-29T02:44:12Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。