論文の概要: JARVIS: A Neuro-Symbolic Commonsense Reasoning Framework for
Conversational Embodied Agents
- arxiv url: http://arxiv.org/abs/2208.13266v2
- Date: Tue, 30 Aug 2022 02:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 09:16:24.579356
- Title: JARVIS: A Neuro-Symbolic Commonsense Reasoning Framework for
Conversational Embodied Agents
- Title(参考訳): JARVIS : 会話型エンボディードエージェントのためのニューロシンボリック・コモンセンス推論フレームワーク
- Authors: Kaizhi Zheng, Kaiwen Zhou, Jing Gu, Yue Fan, Jialu Wang, Zonglin Di,
Xuehai He, Xin Eric Wang
- Abstract要約: 本稿では,モジュール型,一般化型,解釈可能な対話型エンボディエージェントのためのニューロシンボリック・コモンセンス推論フレームワークを提案する。
我々のフレームワークは、ダイアログヒストリー(EDH)、TfD、Two-Agent Task Completion(TATC)を含む3つのダイアログベースの実施タスクに対して、最先端(SOTA)結果を達成する。
私たちのモデルは、Alexa Prize SimBot Public Benchmark Challengeで第1位です。
- 参考スコア(独自算出の注目度): 14.70666899147632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building a conversational embodied agent to execute real-life tasks has been
a long-standing yet quite challenging research goal, as it requires effective
human-agent communication, multi-modal understanding, long-range sequential
decision making, etc. Traditional symbolic methods have scaling and
generalization issues, while end-to-end deep learning models suffer from data
scarcity and high task complexity, and are often hard to explain. To benefit
from both worlds, we propose a Neuro-Symbolic Commonsense Reasoning (JARVIS)
framework for modular, generalizable, and interpretable conversational embodied
agents. First, it acquires symbolic representations by prompting large language
models (LLMs) for language understanding and sub-goal planning, and by
constructing semantic maps from visual observations. Then the symbolic module
reasons for sub-goal planning and action generation based on task- and
action-level common sense. Extensive experiments on the TEACh dataset validate
the efficacy and efficiency of our JARVIS framework, which achieves
state-of-the-art (SOTA) results on all three dialog-based embodied tasks,
including Execution from Dialog History (EDH), Trajectory from Dialog (TfD),
and Two-Agent Task Completion (TATC) (e.g., our method boosts the unseen
Success Rate on EDH from 6.1\% to 15.8\%). Moreover, we systematically analyze
the essential factors that affect the task performance and also demonstrate the
superiority of our method in few-shot settings. Our JARVIS model ranks first in
the Alexa Prize SimBot Public Benchmark Challenge.
- Abstract(参考訳): 実生活タスクを実行するための会話型具体化エージェントの構築は、効果的な人間-エージェントコミュニケーション、マルチモーダル理解、長距離シーケンシャルな意思決定などを必要とするため、長い間、非常に困難な研究目標でした。
従来のシンボリックメソッドにはスケーリングと一般化の問題があり、エンドツーエンドのディープラーニングモデルはデータの不足と高いタスクの複雑さに苦しんでおり、説明が難しいことが多い。
両世界から利益を得るため,モジュール性,汎用性,解釈可能な対話型具体化エージェントのためのニューロシンボリックコモンセンス推論(jarvis)フレームワークを提案する。
まず,大規模言語モデル(LLM)による言語理解とサブゴール計画の促進と,視覚的観察から意味マップを構築することによって,記号表現を取得する。
次に,タスクレベルとアクションレベルの共通感覚に基づくサブゴール計画とアクション生成のシンボリックモジュールの理由について述べる。
TEAChデータセットの大規模実験により, ダイアログヒストリ(EDH), ダイアログからのトラジェクトリ(TfD), 2エージェントタスク完了(TATC)を含む3つのダイアログベースの実施タスクに対して, 最新のSOTA(State-of-the-art)を実現するJARVISフレームワークの有効性と効率を検証した(例: EDHの未確認成功率を6.1\%から15.8\%に引き上げる)。
さらに,タスク性能に影響を及ぼす重要な要因を体系的に分析し,いくつかの設定で手法の優位性を示す。
JARVISモデルは、Alexa Prize SimBot Public Benchmark Challengeで第1位です。
関連論文リスト
- Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models [9.611864685207056]
本稿では,識別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへ,感情認識タスクを再構築するための新しいアプローチであるインストラクタCを提案する。
InstructERCは、3つの重要な貢献をしている:(1)モデルがマルチグラニュラリティ対話監視情報を明示的に統合するのに役立つ単純で効果的なテンプレートモジュール、(2)話者識別と感情予測タスクという2つの追加の感情アライメントタスクを導入し、会話における対話の役割の関係と将来の感情傾向を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2023-09-21T09:22:07Z) - From Chatter to Matter: Addressing Critical Steps of Emotion Recognition
Learning in Task-oriented Dialogue [6.918298428336528]
本稿では,チャット型ERCモデルをタスク指向モデルに変換するフレームワークを提案する。
ユーザの目標からの重要な情報を組み込むために,対話状態が補助機能として使用される。
本フレームワークは,EmoWOZ上でのチップチャットERCモデルの大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-08-24T08:46:30Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - A Multi-Task BERT Model for Schema-Guided Dialogue State Tracking [78.2700757742992]
タスク指向対話システムは対話状態追跡器(DST)を用いて会話を完了させる。
最近の最先端のDST実装は、モデルの堅牢性を改善するために様々なサービスのスキーマに依存している。
本稿では,意図予測,要求スロット予測,スロットフィリングの3つのDSTタスクを協調的に解決する単一マルチタスクBERTモデルを提案する。
論文 参考訳(メタデータ) (2022-07-02T13:27:59Z) - Multi-Task Pre-Training for Plug-and-Play Task-Oriented Dialogue System [26.837972034630003]
PPTODはタスク指向対話のための統一的なプラグアンドプレイモデルである。
エンド・ツー・エンドの対話モデル、対話状態追跡、意図分類を含む3つのベンチマークTODタスクにおいて、我々のモデルを広範囲にテストする。
論文 参考訳(メタデータ) (2021-09-29T22:02:18Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。
これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文 参考訳(メタデータ) (2020-05-02T11:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。