論文の概要: JARVIS: A Neuro-Symbolic Commonsense Reasoning Framework for Conversational Embodied Agents
- arxiv url: http://arxiv.org/abs/2208.13266v4
- Date: Tue, 02 Sep 2025 22:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.149276
- Title: JARVIS: A Neuro-Symbolic Commonsense Reasoning Framework for Conversational Embodied Agents
- Title(参考訳): JARVIS : 会話型エンボディードエージェントのためのニューロシンボリック・コモンセンス推論フレームワーク
- Authors: Kaizhi Zheng, Kaiwen Zhou, Jing Gu, Yue Fan, Jialu Wang, Zonglin Di, Xuehai He, Xin Eric Wang,
- Abstract要約: JARVISは,モジュール型,一般化可能,解釈可能な対話型エンボディドエージェントのための,ニューロシンボリック・コモンセンス推論フレームワークである。
我々のフレームワークは、ダイアログヒストリー(EDH)、TfD、Two-Agent Task Completion(TATC)を含む3つのダイアログベースの実施タスクに対して、最先端(SOTA)結果を達成する。
私たちのモデルは、Alexa Prize SimBot Public Benchmark Challengeで第1位です。
- 参考スコア(独自算出の注目度): 59.091663077007304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building a conversational embodied agent to execute real-life tasks has been a long-standing yet quite challenging research goal, as it requires effective human-agent communication, multi-modal understanding, long-range sequential decision making, etc. Traditional symbolic methods have scaling and generalization issues, while end-to-end deep learning models suffer from data scarcity and high task complexity, and are often hard to explain. To benefit from both worlds, we propose JARVIS, a neuro-symbolic commonsense reasoning framework for modular, generalizable, and interpretable conversational embodied agents. First, it acquires symbolic representations by prompting large language models (LLMs) for language understanding and sub-goal planning, and by constructing semantic maps from visual observations. Then the symbolic module reasons for sub-goal planning and action generation based on task- and action-level common sense. Extensive experiments on the TEACh dataset validate the efficacy and efficiency of our JARVIS framework, which achieves state-of-the-art (SOTA) results on all three dialog-based embodied tasks, including Execution from Dialog History (EDH), Trajectory from Dialog (TfD), and Two-Agent Task Completion (TATC) (e.g., our method boosts the unseen Success Rate on EDH from 6.1\% to 15.8\%). Moreover, we systematically analyze the essential factors that affect the task performance and also demonstrate the superiority of our method in few-shot settings. Our JARVIS model ranks first in the Alexa Prize SimBot Public Benchmark Challenge.
- Abstract(参考訳): 現実のタスクを実行するための対話型具体化エージェントの構築は、効果的なヒューマンエージェントコミュニケーション、マルチモーダル理解、長距離のシーケンシャルな意思決定などを必要とするため、長い間、非常に難しい研究目標であった。
従来のシンボリックな手法にはスケーリングと一般化の問題があり、エンドツーエンドのディープラーニングモデルはデータの不足とタスクの複雑さに悩まされており、説明が難しいことが多い。
両世界から恩恵を受けるために,モジュール型,一般化可能,解釈可能な対話型エンボディエージェントのための,ニューロシンボリック・コモンセンス推論フレームワークであるJARVISを提案する。
まず,大規模言語モデル(LLM)による言語理解とサブゴール計画の促進と,視覚的観察から意味マップを構築することによって,記号表現を取得する。
次に,タスクレベルとアクションレベルの共通感覚に基づくサブゴール計画とアクション生成のシンボリックモジュールの理由について述べる。
TEAChデータセットの大規模な実験により、我々のJARVISフレームワークの有効性と効率が検証され、ダイアログ履歴からの実行(EDH)、ダイアログからのトラジェクトリ(TfD)、2エージェントタスク完了(TATC)を含む3つのダイアログベースの実施タスクに対してSOTA(State-of-the-art)結果が得られた(例:我々の手法はEDHの未確認成功率を6.1\%から15.8\%に引き上げる)。
さらに,タスク性能に影響を及ぼす重要な要因を体系的に分析し,少数ショット設定での手法の優位性を実証する。
私たちのJARVISモデルは、Alexa Prize SimBot Public Benchmark Challengeで第1位です。
関連論文リスト
- New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
2つの重要な特徴を持つ新しいRECデータセットを導入する。第一に、オブジェクトカテゴリ、属性、関係性に関する詳細な推論を必要とする、制御可能な難易度で設計されている。
第二に、微粒な編集によって生成された否定的なテキストと画像が組み込まれ、既存のターゲットを拒否するモデルの能力を明示的にテストする。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models [49.09606704563898]
人物の再識別はコンピュータビジョンにおいて重要な課題であり、重複しないカメラビューを通して個人を認識することを目的としている。
本稿では,テキストを優先した検索パラダイムに焦点を移し,フレキシブルかつインタラクティブな再識別を可能にする新しいフレームワークChatReIDを提案する。
本稿では,人物属性の理解からきめ細かい画像検索,マルチモーダルタスク推論に至るまで,3段階のチューニングを通じてRe-ID能力を実現する階層的プログレッシブチューニング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-27T10:34:14Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models [9.611864685207056]
本稿では,識別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへ,感情認識タスクを再構築するための新しいアプローチであるインストラクタCを提案する。
InstructERCは、3つの重要な貢献をしている:(1)モデルがマルチグラニュラリティ対話監視情報を明示的に統合するのに役立つ単純で効果的なテンプレートモジュール、(2)話者識別と感情予測タスクという2つの追加の感情アライメントタスクを導入し、会話における対話の役割の関係と将来の感情傾向を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2023-09-21T09:22:07Z) - From Chatter to Matter: Addressing Critical Steps of Emotion Recognition
Learning in Task-oriented Dialogue [6.918298428336528]
本稿では,チャット型ERCモデルをタスク指向モデルに変換するフレームワークを提案する。
ユーザの目標からの重要な情報を組み込むために,対話状態が補助機能として使用される。
本フレームワークは,EmoWOZ上でのチップチャットERCモデルの大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-08-24T08:46:30Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - A Multi-Task BERT Model for Schema-Guided Dialogue State Tracking [78.2700757742992]
タスク指向対話システムは対話状態追跡器(DST)を用いて会話を完了させる。
最近の最先端のDST実装は、モデルの堅牢性を改善するために様々なサービスのスキーマに依存している。
本稿では,意図予測,要求スロット予測,スロットフィリングの3つのDSTタスクを協調的に解決する単一マルチタスクBERTモデルを提案する。
論文 参考訳(メタデータ) (2022-07-02T13:27:59Z) - Multi-Task Pre-Training for Plug-and-Play Task-Oriented Dialogue System [26.837972034630003]
PPTODはタスク指向対話のための統一的なプラグアンドプレイモデルである。
エンド・ツー・エンドの対話モデル、対話状態追跡、意図分類を含む3つのベンチマークTODタスクにおいて、我々のモデルを広範囲にテストする。
論文 参考訳(メタデータ) (2021-09-29T22:02:18Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。
これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文 参考訳(メタデータ) (2020-05-02T11:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。