論文の概要: AutoToM: Scaling Model-based Mental Inference via Automated Agent Modeling
- arxiv url: http://arxiv.org/abs/2502.15676v2
- Date: Sun, 29 Jun 2025 16:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:38.970675
- Title: AutoToM: Scaling Model-based Mental Inference via Automated Agent Modeling
- Title(参考訳): AutoToM: 自動エージェントモデリングによるモデルベースメンタル推論のスケーリング
- Authors: Zhining Zhang, Chuanyang Jin, Mung Yao Jia, Shunchi Zhang, Tianmin Shu,
- Abstract要約: AutoToMは、スケーラブルで堅牢で解釈可能なメンタル推論のための自動エージェントモデリング手法である。
我々は,AutoToMが人間のような信頼度を推定し,具体的意思決定のためのオンライン精神推論を可能にすることを示す。
- 参考スコア(独自算出の注目度): 8.034600950988535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theory of Mind (ToM), the ability to understand people's minds based on their behavior, is key to developing socially intelligent agents. Current approaches to ToM reasoning either rely on prompting Large Language Models (LLMs), which are prone to systematic errors, or use handcrafted, rigid agent models for model-based inference, which are more robust but fail to generalize across domains. In this work, we introduce AutoToM, an automated agent modeling method for scalable, robust, and interpretable mental inference. Given a ToM problem, AutoToM first proposes an initial agent model and then performs automated Bayesian inverse planning based on this model, leveraging an LLM backend. Guided by inference uncertainty, it iteratively refines the model by introducing additional mental variables and/or incorporating more timesteps in the context. Across five diverse benchmarks, AutoToM outperforms existing ToM methods and even large reasoning models. Additionally, we show that AutoToM can produce human-like confidence estimates and enable online mental inference for embodied decision-making.
- Abstract(参考訳): 人の行動に基づいて人の心を理解する能力である心の理論(ToM)は、社会的に知的なエージェントを開発する上で鍵となる。
ToM推論の現在のアプローチは、体系的なエラーを起こしやすいLarge Language Models (LLM) や、より堅牢だがドメインをまたいだ一般化に失敗するモデルベースの推論に手作りの厳密なエージェントモデルを使用するかのどちらかに依存している。
本稿では,拡張性,堅牢性,解釈可能なメンタル推論のための自動エージェントモデリング手法であるAutoToMを紹介する。
ToMの問題から、AutoToMはまず初期エージェントモデルを提案し、次にこのモデルに基づいて自動ベイズ逆計画を実行し、LLMバックエンドを活用する。
推論の不確実性によってガイドされ、追加のメンタル変数を導入し、あるいはコンテキストにより多くのタイムステップを組み込むことによって、モデルを反復的に洗練する。
5つの多様なベンチマークで、AutoToMは既存のToMメソッドや大きな推論モデルよりも優れています。
さらに、AutoToMは人間のような信頼度を推定し、具体的意思決定のためのオンライン精神推論を可能にすることを示す。
関連論文リスト
- Towards Machine Theory of Mind with Large Language Model-Augmented Inverse Planning [0.022940141855172035]
本稿では,大言語モデル(LLM)を仮説と可能性関数を生成するメカニズムとして用いたマシン理論(ToM)のハイブリッド手法を提案する。
また、オープンエンドタスクにおいて精神状態を予測するモデルの可能性を示す。
論文 参考訳(メタデータ) (2025-07-04T16:01:27Z) - Advancing Multi-Step Mathematical Reasoning in Large Language Models through Multi-Layered Self-Reflection with Auto-Prompting [0.0]
大規模言語モデル(LLM)における多段階数学的推論を強化する新しい手法を提案する。
Multi-Layered Self-Reflection with Auto-Prompting (MAPS)フレームワークは、Chain of Thought (CoT)、Self-Reflection、Auto-Promptingといったテクニックを統合している。
実験により、MAPSは標準のCoTよりも大幅に優れ、推論最適化モデルと競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2025-06-30T14:18:35Z) - Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。
提案アルゴリズムは,ベイズ理論をモデルとした。
本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文 参考訳(メタデータ) (2025-02-17T15:08:50Z) - Decompose-ToM: Enhancing Theory of Mind Reasoning in Large Language Models through Simulation and Task Decomposition [2.089191490381739]
心の理論 (Theory of Mind, ToM) は、他者の精神状態を理解し、反映する能力である。
大規模言語モデル(LLM)は、ToMの初歩的な理解しか持たない。
本稿では,複雑なToMタスクにおけるモデル性能を改善するLLMベースの推論アルゴリズムであるDecompose-ToM'を提案する。
論文 参考訳(メタデータ) (2025-01-15T18:44:01Z) - Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。
本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:35:46Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding [55.38254464415964]
現在、マインド評価の理論は、機械生成データやゲーム設定を用いたテストモデルに焦点を合わせており、ショートカットや素早い相関が生じる傾向にある。
我々は,多次元精神状態を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。
論文 参考訳(メタデータ) (2024-04-21T11:51:13Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - AutoXPCR: Automated Multi-Objective Model Selection for Time Series
Forecasting [1.0515439489916734]
本稿では,自動的かつ説明可能な多目的モデル選択のための新しい手法であるAutoXPCRを提案する。
我々の手法はメタラーニングを利用して、(P)予測誤差、(C)ミスプレキシティ、(R)ソース要求を含むPCR基準に沿ったモデルの性能を推定する。
我々の手法は、他のモデル選択手法よりも明らかに優れている。平均すると、最高の品質の90%のモデルに推奨する計算コストの20%しか必要としない。
論文 参考訳(メタデータ) (2023-12-20T14:04:57Z) - Prototypical Self-Explainable Models Without Re-training [5.837536154627278]
自己説明可能なモデル(SEM)は、予測とともに説明を提供するために直接訓練される。
現在のSEMは複雑なアーキテクチャと高度に規則化された損失関数を必要とするため、具体的かつコストのかかる訓練が必要である。
我々は、既存の事前学習されたモデルからプロトタイプSEMに変換することができる、KMExと呼ばれる単純で効率的な普遍的手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T01:15:00Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - AutoMix: Automatically Mixing Language Models [62.51238143437967]
大規模言語モデル(LLM)は、さまざまなサイズと構成のクラウドAPIプロバイダから利用可能になった。
より小さなLMからの出力の近似精度に基づいて,クエリを大規模LMに戦略的にルーティングする手法であるAutomixを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:57:39Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Minding Language Models' (Lack of) Theory of Mind: A Plug-and-Play
Multi-Character Belief Tracker [72.09076317574238]
ToMは,読解における文字の信念状態を調べるためのプラグアンドプレイ方式である。
ToMは、教師付きベースラインと比較して、配電性能が堅牢でありながら、ゼロオーダー設定でのオフ・ザ・シェルフニューラルネットワーク理論の考え方を強化する。
論文 参考訳(メタデータ) (2023-06-01T17:24:35Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。