論文の概要: OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind
- arxiv url: http://arxiv.org/abs/2605.20423v1
- Date: Tue, 19 May 2026 19:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.341911
- Title: OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind
- Title(参考訳): OSCToM:RL-Guided Adversarial Generation for High-Order Theory of Mind
- Authors: Sharmin Sultana Srishty, Kazi Mahathir Rahman, Malaika Parizat Sakkhi, Samia Shahid Prianna, Shaikhul Islam Sinat,
- Abstract要約: OSCToM (Observer-Self Conflict Theory of Mind) は、ToMタスクにおけるネストされた信念の衝突をモデル化するためのアプローチである。
我々の実験では、OSCToM-8Bはテストされたシステムの中で最高の総合的な結果をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) perform well on many language tasks, but their Theory of Mind (ToM) reasoning is still uneven in complex social settings. Existing benchmarks, including ExploreToM, do not always test the recursive beliefs and information asymmetries that make these settings difficult. This paper presents OSCToM (Observer-Self Conflict Theory of Mind), an approach for modeling nested belief conflicts in LLM-based ToM tasks. The key case is one in which an observer's view of another agent conflicts with the observer's own belief state. Such cases go beyond simple perspective-taking and require recursive, multi-layered reasoning. OSCToM combines reinforcement learning (RL), an extended domain-specific language, and compositional surrogate models to generate observer-self conflicts. In our experiments, OSCToM-8B gives the best overall result among the systems tested. It improves on the reported ExploreToM results on FANToM and remains competitive on Hi-ToM and BigToM. On the information-asymmetric FANToM benchmark, OSCToM reaches 76% accuracy, compared with the 0.2% reported by ExploreToM. The data-synthesis procedure is also 6x more efficient, indicating that targeted training data can help smaller models handle advanced cognitive reasoning. The project code is available at https://github.com/sharminsrishty/osct.
- Abstract(参考訳): 大きな言語モデル(LLM)は多くの言語タスクでうまく機能するが、その理論(ToM)の推論は複雑な社会的環境においてまだ不均一である。
ExploreToMを含む既存のベンチマークは、これらの設定を難しくする再帰的信念や情報非対称性を常にテストするわけではない。
本稿では,OSCToM(Observer-Self Conflict Theory of Mind)を提案する。
重要なケースは、観察者の別のエージェントに対する見方が、観察者の自身の信念状態と矛盾する点である。
このようなケースは単純な視点を取るだけでなく、再帰的で多層的推論を必要とする。
OSCToMは、拡張されたドメイン固有言語である強化学習(RL)と、構成的代理モデルを組み合わせて、オブザーバと自己の衝突を生成する。
我々の実験では、OSCToM-8Bはテストされたシステムの中で最高の総合的な結果をもたらす。
報告されたExploreToMの結果をFANToMで改善し、Hi-ToMとBigToMで競争力を維持している。
情報非対称なFANToMベンチマークでは、OSCToMが76%、ExploreToMが0.2%と報告した。
データ合成の手順も6倍効率が高く、ターゲットとなるトレーニングデータは、より小さなモデルで高度な認知的推論を扱うのに役立つことを示している。
プロジェクトのコードはhttps://github.com/sharminsrishty/osct.comで公開されている。
関連論文リスト
- Understanding Artificial Theory of Mind: Perturbed Tasks and Reasoning in Large Language Models [10.629439705877054]
本研究では,大規模言語モデル (LLM) が真の心の理論 (ToM) 能力を示すかどうかを考察する。
ToMデータセットには,古典的かつ摂動的な疑似信念タスクを含む,手作りでリッチな注釈付きデータセットが導入されている。
タスク摂動下でのToM能力の急激な低下を示すとともに,ToMの頑健な形態が存在するかどうかを疑問視する。
論文 参考訳(メタデータ) (2026-02-25T16:24:35Z) - Rethinking Reward Models for Multi-Domain Test-Time Scaling [91.76069784586149]
従来の作業では、プロセス報酬モデル(PRM)が最終回答のみを評価する結果報酬モデル(ORM)を上回っていると仮定しています。
14の異なる領域にまたがる4つの報酬モデル変種を統一的に評価する。
LLMの自動ラベル付けからラベルノイズを継承し,長い推論軌跡の評価に難渋するPRM方式の段階的スコアリングが原因と考えられる。
論文 参考訳(メタデータ) (2025-10-01T04:21:14Z) - DEL-ToM: Inference-Time Scaling for Theory-of-Mind Reasoning via Dynamic Epistemic Logic [34.90622503586192]
理論・オブ・ミンド(ToM)タスクは大きな言語モデルに固有の課題をもたらす。
推論時間スケーリングによる検証可能なToM推論を改善するフレームワークであるDEL-ToMを提案する。
論文 参考訳(メタデータ) (2025-05-22T23:52:56Z) - Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? [14.29992535286614]
心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。
大規模言語モデルの最近の進歩は、ToMベンチマークで有望なパフォーマンスを示している。
これらのベンチマークは、明示的なヒューマンライクな推論プロセスを必要とするのか、それとも、代替戦略によってモデルが成功するのか?
論文 参考訳(メタデータ) (2025-04-02T12:58:42Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Decompose-ToM: Enhancing Theory of Mind Reasoning in Large Language Models through Simulation and Task Decomposition [2.089191490381739]
心の理論 (Theory of Mind, ToM) は、他者の精神状態を理解し、反映する能力である。
大規模言語モデル(LLM)は、ToMの初歩的な理解しか持たない。
本稿では,複雑なToMタスクにおけるモデル性能を改善するLLMベースの推論アルゴリズムであるDecompose-ToM'を提案する。
論文 参考訳(メタデータ) (2025-01-15T18:44:01Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。