論文の概要: Traces of Social Competence in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.04161v1
- Date: Wed, 04 Mar 2026 15:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.366685
- Title: Traces of Social Competence in Large Language Models
- Title(参考訳): 大規模言語モデルにおける社会的能力のトレース
- Authors: Tom Kouwenhoven, Michiel van der Meer, Max van Duijn,
- Abstract要約: FBT(False Belief Test)は、心の理論(ToM)と関連する社会的認知能力を評価する主要な方法である。
大規模言語モデル(LLM)では、データの汚染、不十分なモデルの詳細、一貫性のない制御といった問題により、信頼性と説明力は制限され続けている。
ベイジアン・ロジスティック・レグレッション(英語版)を用いて、192のFBT変種(Trott et al. 2023)のバランスの取れたセット上で、17のオープンウェイトモデルをテストすることにより、モデルサイズとポストトレーニングが社会認知能力にどのように影響するかを明らかにする。
- 参考スコア(独自算出の注目度): 4.840227446088162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The False Belief Test (FBT) has been the main method for assessing Theory of Mind (ToM) and related socio-cognitive competencies. For Large Language Models (LLMs), the reliability and explanatory potential of this test have remained limited due to issues like data contamination, insufficient model details, and inconsistent controls. We address these issues by testing 17 open-weight models on a balanced set of 192 FBT variants (Trott et al. 2023) using Bayesian Logistic regression to identify how model size and post-training affect socio-cognitive competence. We find that scaling model size benefits performance, but not strictly. A cross-over effect reveals that explicating propositional attitudes (X thinks) fundamentally alters response patterns. Instruction tuning partially mitigates this effect, but further reasoning-oriented finetuning amplifies it. In a case study analysing social reasoning ability throughout OLMo 2 training, we show that this cross-over effect emerges during pre-training, suggesting that models acquire stereotypical response patterns tied to mental-state vocabulary that can outweigh other scenario semantics. Finally, vector steering allows us to isolate a think vector as the causal driver of observed FBT behaviour.
- Abstract(参考訳): FBT(False Belief Test)は、心の理論(ToM)と関連する社会認知能力を評価する主要な方法である。
大規模言語モデル(LLM)では、データの汚染、不十分なモデルの詳細、一貫性のない制御といった問題により、信頼性と説明力は制限され続けている。
ベイジアン・ロジスティック・レグレッション(英語版)を用いて、192のFBT変種(Trott et al 2023)のバランスの取れたセット上で、17のオープンウェイトモデルをテストすることにより、モデルサイズとポストトレーニングが社会認知能力にどのように影響するかを明らかにする。
スケールモデルのサイズはパフォーマンスに恩恵があるが、厳密にはそうではない。
クロスオーバー効果は、提案的態度(X思考)が基本的に反応パターンを変化させていることを明らかにする。
命令チューニングはこの効果を部分的に緩和するが、推論指向の微調整はそれを増幅する。
OLMo2トレーニングを通して社会的推論能力を分析するケーススタディにおいて、この交叉効果が事前学習中に出現することを示し、モデルが他のシナリオセマンティクスを上回る、精神状態の語彙に結びついたステレオタイプ応答パターンを取得することを示唆した。
最後に、ベクトルステアリングにより、観察されたFBT動作の因果的ドライバとして思考ベクトルを分離することができる。
関連論文リスト
- Decoding Answers Before Chain-of-Thought: Evidence from Pre-CoT Probes and Activation Steering [5.427346259545067]
CoT(Chain-of- Thought)は、大規模言語モデルにおける推論機能のスケーリングの中心となっている。
命令調整モデルがCoTを生成する前に解答を決定する場合が多いことを示す。
論文 参考訳(メタデータ) (2026-03-02T04:33:55Z) - The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think [81.38614558541772]
本稿では,モデル推論の分析とステアリングのためのフレームワークであるCoT Encyclopediaを紹介する。
本手法はモデル生成CoTから多種多様な推論基準を自動的に抽出する。
このフレームワークは既存の手法よりも解釈可能で包括的分析が可能であることを示す。
論文 参考訳(メタデータ) (2025-05-15T11:31:02Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - HANS, are you clever? Clever Hans Effect Analysis of Neural Systems [1.6267479602370545]
大規模言語モデル(It-LLM)は、認知状態、意図、そしてすべての人々の反応を推論する優れた能力を示しており、人間は日々の社会的相互作用を効果的にガイドし理解することができる。
モデル能力の確固たる評価を構築するために、MCQ(Multiple-choice Question)ベンチマークがいくつか提案されている。
しかし、初期の研究は、I-LLMに固有の「順序バイアス」があることを示しており、適切な評価に挑戦している。
論文 参考訳(メタデータ) (2023-09-21T20:52:18Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-07T06:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。