論文の概要: Language-Informed Synthesis of Rational Agent Models for Grounded Theory-of-Mind Reasoning On-The-Fly
- arxiv url: http://arxiv.org/abs/2506.16755v1
- Date: Fri, 20 Jun 2025 05:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.347183
- Title: Language-Informed Synthesis of Rational Agent Models for Grounded Theory-of-Mind Reasoning On-The-Fly
- Title(参考訳): 言語インフォームド・シンセサイザーモデルによる地層理論のオンザフライ推論
- Authors: Lance Ying, Ryan Truong, Katherine M. Collins, Cedegao E. Zhang, Megan Wei, Tyler Brooke-Wilson, Tan Zhi-Xuan, Lionel Wong, Joshua B. Tenenbaum,
- Abstract要約: LIRASは、構造的だが状況特異的なエージェントと環境表現を構築するプロセスとして、マルチモーダルな社会的推論を基盤としている。
我々のモデル(比較的軽量なVLMで実証された)は、すべての領域にわたる人間の判断を捉える上で、アブレーションや最先端のモデルよりも優れています。
- 参考スコア(独自算出の注目度): 38.49445976380049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Drawing real world social inferences usually requires taking into account information from multiple modalities. Language is a particularly powerful source of information in social settings, especially in novel situations where language can provide both abstract information about the environment dynamics and concrete specifics about an agent that cannot be easily visually observed. In this paper, we propose Language-Informed Rational Agent Synthesis (LIRAS), a framework for drawing context-specific social inferences that integrate linguistic and visual inputs. LIRAS frames multimodal social reasoning as a process of constructing structured but situation-specific agent and environment representations - leveraging multimodal language models to parse language and visual inputs into unified symbolic representations, over which a Bayesian inverse planning engine can be run to produce granular probabilistic judgments. On a range of existing and new social reasoning tasks derived from cognitive science experiments, we find that our model (instantiated with a comparatively lightweight VLM) outperforms ablations and state-of-the-art models in capturing human judgments across all domains.
- Abstract(参考訳): 実世界の社会的推論を描くには、通常、複数のモダリティからの情報を考慮する必要がある。
言語は特に社会的設定において強力な情報源であり、特に、言語が環境力学に関する抽象的な情報と、容易に視覚的に観察できないエージェントに関する具体的な情報の両方を提供することができる新しい状況においてである。
本稿では,言語と視覚の入力を統合した文脈特異的な社会的推論を描画するフレームワークであるLanguage-Informed Rational Agent Synthesis (LIRAS)を提案する。
LIRASは、多モーダル言語モデルを利用して言語と視覚入力を統一された記号表現に解析し、ベイジアン逆計画エンジンを走らせ、粒度の確率的判断を生成する。
認知科学実験から得られた社会的推論タスクの在り方や新しい範囲において、我々のモデル(比較的軽量なVLMで実証された)は、すべての領域にわたる人間の判断を捉える上で、アブレーションや最先端のモデルよりも優れていることが判明した。
関連論文リスト
- IOLBENCH: Benchmarking LLMs on Linguistic Reasoning [8.20398036986024]
IOL(International Linguistics Olympiad)問題に基づく新しいベンチマークであるIOLBENCHを紹介する。
このデータセットは、文法、形態学、音韻学、意味論をテストする様々な問題を含んでいる。
最も先進的なモデルでさえ、言語的な複雑さの複雑さを扱うのに苦労している。
論文 参考訳(メタデータ) (2025-01-08T03:15:10Z) - Neurosymbolic Graph Enrichment for Grounded World Models [47.92947508449361]
複雑な問題に対処するために, LLM の反応性を向上し, 活用するための新しいアプローチを提案する。
我々は,大規模言語モデルの強みと構造的意味表現を組み合わせた,多モーダルで知識を付加した意味の形式表現を作成する。
非構造化言語モデルと形式的意味構造とのギャップを埋めることで、自然言語理解と推論における複雑な問題に対処するための新たな道を開く。
論文 参考訳(メタデータ) (2024-11-19T17:23:55Z) - ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。
ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。
我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文 参考訳(メタデータ) (2024-08-12T10:15:13Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - From Word Models to World Models: Translating from Natural Language to
the Probabilistic Language of Thought [124.40905824051079]
言語インフォームド・シンキングのための計算フレームワークである「構成」を合理的に提案する。
我々は、自然言語から確率論的思考言語への文脈感応的なマッピングとして、言語の意味を定式化する。
LLMは、現実的に適切な言語的意味をキャプチャする文脈依存翻訳を生成することができることを示す。
認知的なモチベーションを持つシンボリックモジュールを統合するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-06-22T05:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。