論文の概要: Learning by Asking for Embodied Visual Navigation and Task Completion
- arxiv url: http://arxiv.org/abs/2302.04865v1
- Date: Thu, 9 Feb 2023 18:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 14:31:28.919456
- Title: Learning by Asking for Embodied Visual Navigation and Task Completion
- Title(参考訳): 身体的視覚ナビゲーションとタスク完了のためのエイキングによる学習
- Authors: Ying Shen and Ismini Lourentzou
- Abstract要約: 本稿では,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するELBA(Embodied Learning-By-Asking)モデルを提案する。
実験結果から,ELBAは質問応答能力のないベースラインモデルに比べ,タスク性能の向上を図っている。
- 参考スコア(独自算出の注目度): 20.0182240268864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research community has shown increasing interest in designing intelligent
embodied agents that can assist humans in accomplishing tasks. Despite recent
progress on related vision-language benchmarks, most prior work has focused on
building agents that follow instructions rather than endowing agents the
ability to ask questions to actively resolve ambiguities arising naturally in
embodied environments. To empower embodied agents with the ability to interact
with humans, in this work, we propose an Embodied Learning-By-Asking (ELBA)
model that learns when and what questions to ask to dynamically acquire
additional information for completing the task. We evaluate our model on the
TEACH vision-dialog navigation and task completion dataset. Experimental
results show that ELBA achieves improved task performance compared to baseline
models without question-answering capabilities.
- Abstract(参考訳): 研究コミュニティは、タスクの達成を支援するインテリジェントな具体化エージェントの設計への関心が高まっている。
視覚言語ベンチマークの最近の進歩にもかかわらず、ほとんどの先行研究は、内挿エージェントではなく指示に従うエージェントを構築することに重点を置いてきた。
本研究は,人間と対話する能力を持つエンボディエージェントを強化するために,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するEmbodied Learning-By-Asking(ELBA)モデルを提案する。
teaching vision-dialog navigation と task completion dataset を用いたモデルの評価を行った。
実験結果から,ELBAは質問応答能力のないベースラインモデルに比べ,タスク性能の向上を図っている。
関連論文リスト
- Improving Agent Interactions in Virtual Environments with Language
Models [0.9790236766474201]
本研究は、Minecraftデータセットにおける集合的なビルディング割り当てに焦点を当てる。
我々は,最先端手法によるタスク理解を強化するために,言語モデリングを採用している。
論文 参考訳(メタデータ) (2024-02-08T06:34:11Z) - Can Foundation Models Watch, Talk and Guide You Step by Step to Make a
Cake? [62.59699229202307]
AIの進歩にもかかわらず、インタラクティブなタスクガイダンスシステムの開発は依然として大きな課題である。
我々は、人間のユーザと人間のインストラクターとの自然なインタラクションに基づいて、新しいマルチモーダルベンチマークデータセット、ウォッチ、トーク、ガイド(WTaG)を作成しました。
いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。
論文 参考訳(メタデータ) (2023-11-01T15:13:49Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Improving Language Model Prompting in Support of Semi-autonomous Task
Learning [6.021787236982658]
言語モデル(LLM)は、新しいタスク能力を取得するために必要なエージェントの知識の源としてポテンシャルを提供する。
本稿では,新しいタスクを学習するエージェントに対して有用なLLM応答をもたらす手がかりを構築できる新しいエージェント機能への取り組みについて述べる。
論文 参考訳(メタデータ) (2022-09-13T15:36:01Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task
Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。
我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。
この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文 参考訳(メタデータ) (2020-07-31T00:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。