論文の概要: Learning by Asking for Embodied Visual Navigation and Task Completion
- arxiv url: http://arxiv.org/abs/2302.04865v1
- Date: Thu, 9 Feb 2023 18:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 14:31:28.919456
- Title: Learning by Asking for Embodied Visual Navigation and Task Completion
- Title(参考訳): 身体的視覚ナビゲーションとタスク完了のためのエイキングによる学習
- Authors: Ying Shen and Ismini Lourentzou
- Abstract要約: 本稿では,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するELBA(Embodied Learning-By-Asking)モデルを提案する。
実験結果から,ELBAは質問応答能力のないベースラインモデルに比べ,タスク性能の向上を図っている。
- 参考スコア(独自算出の注目度): 20.0182240268864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research community has shown increasing interest in designing intelligent
embodied agents that can assist humans in accomplishing tasks. Despite recent
progress on related vision-language benchmarks, most prior work has focused on
building agents that follow instructions rather than endowing agents the
ability to ask questions to actively resolve ambiguities arising naturally in
embodied environments. To empower embodied agents with the ability to interact
with humans, in this work, we propose an Embodied Learning-By-Asking (ELBA)
model that learns when and what questions to ask to dynamically acquire
additional information for completing the task. We evaluate our model on the
TEACH vision-dialog navigation and task completion dataset. Experimental
results show that ELBA achieves improved task performance compared to baseline
models without question-answering capabilities.
- Abstract(参考訳): 研究コミュニティは、タスクの達成を支援するインテリジェントな具体化エージェントの設計への関心が高まっている。
視覚言語ベンチマークの最近の進歩にもかかわらず、ほとんどの先行研究は、内挿エージェントではなく指示に従うエージェントを構築することに重点を置いてきた。
本研究は,人間と対話する能力を持つエンボディエージェントを強化するために,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するEmbodied Learning-By-Asking(ELBA)モデルを提案する。
teaching vision-dialog navigation と task completion dataset を用いたモデルの評価を行った。
実験結果から,ELBAは質問応答能力のないベースラインモデルに比べ,タスク性能の向上を図っている。
関連論文リスト
- A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。
関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文 参考訳(メタデータ) (2024-09-27T08:17:53Z) - Improving Agent Interactions in Virtual Environments with Language
Models [0.9790236766474201]
本研究は、Minecraftデータセットにおける集合的なビルディング割り当てに焦点を当てる。
我々は,最先端手法によるタスク理解を強化するために,言語モデリングを採用している。
論文 参考訳(メタデータ) (2024-02-08T06:34:11Z) - Can Foundation Models Watch, Talk and Guide You Step by Step to Make a
Cake? [62.59699229202307]
AIの進歩にもかかわらず、インタラクティブなタスクガイダンスシステムの開発は依然として大きな課題である。
我々は、人間のユーザと人間のインストラクターとの自然なインタラクションに基づいて、新しいマルチモーダルベンチマークデータセット、ウォッチ、トーク、ガイド(WTaG)を作成しました。
いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。
論文 参考訳(メタデータ) (2023-11-01T15:13:49Z) - Asking Before Acting: Gather Information in Embodied Decision Making with Language Models [20.282749796376063]
本研究では,Large Language Models (LLM) が,不慣れな環境で重要な情報を効率的に収集する上で,課題に直面していることを示す。
我々は,自然言語を用いた関連する情報に対して,エージェントが外部ソースと積極的に問い合わせることを可能にする方法であるtextitAsking Before Acting (ABA)を提案する。
本研究では,テキストベースの日常タスク,ロボットアーム操作タスク,実世界のオープンドメインイメージベース実施タスクを含む,幅広い環境実験を行う。
論文 参考訳(メタデータ) (2023-05-25T04:05:08Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task
Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。
我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。
この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文 参考訳(メタデータ) (2020-07-31T00:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。