論文の概要: Learning by Asking for Embodied Visual Navigation and Task Completion
- arxiv url: http://arxiv.org/abs/2302.04865v1
- Date: Thu, 9 Feb 2023 18:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 14:31:28.919456
- Title: Learning by Asking for Embodied Visual Navigation and Task Completion
- Title(参考訳): 身体的視覚ナビゲーションとタスク完了のためのエイキングによる学習
- Authors: Ying Shen and Ismini Lourentzou
- Abstract要約: 本稿では,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するELBA(Embodied Learning-By-Asking)モデルを提案する。
実験結果から,ELBAは質問応答能力のないベースラインモデルに比べ,タスク性能の向上を図っている。
- 参考スコア(独自算出の注目度): 20.0182240268864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research community has shown increasing interest in designing intelligent
embodied agents that can assist humans in accomplishing tasks. Despite recent
progress on related vision-language benchmarks, most prior work has focused on
building agents that follow instructions rather than endowing agents the
ability to ask questions to actively resolve ambiguities arising naturally in
embodied environments. To empower embodied agents with the ability to interact
with humans, in this work, we propose an Embodied Learning-By-Asking (ELBA)
model that learns when and what questions to ask to dynamically acquire
additional information for completing the task. We evaluate our model on the
TEACH vision-dialog navigation and task completion dataset. Experimental
results show that ELBA achieves improved task performance compared to baseline
models without question-answering capabilities.
- Abstract(参考訳): 研究コミュニティは、タスクの達成を支援するインテリジェントな具体化エージェントの設計への関心が高まっている。
視覚言語ベンチマークの最近の進歩にもかかわらず、ほとんどの先行研究は、内挿エージェントではなく指示に従うエージェントを構築することに重点を置いてきた。
本研究は,人間と対話する能力を持つエンボディエージェントを強化するために,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するEmbodied Learning-By-Asking(ELBA)モデルを提案する。
teaching vision-dialog navigation と task completion dataset を用いたモデルの評価を行った。
実験結果から,ELBAは質問応答能力のないベースラインモデルに比べ,タスク性能の向上を図っている。
関連論文リスト
- Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - EfficientEQA: An Efficient Approach for Open Vocabulary Embodied Question Answering [21.114403949257934]
EQA(Embodied Question Answering)は、ロボットホームアシスタントにとって不可欠な課題である。
近年の研究では、大規模視覚言語モデル(VLM)がEQAに有効に活用できることが示されているが、既存の研究はビデオベースの質問応答に焦点を当てているか、クローズドフォームの選択セットに依存している。
オープン語彙EQAのためのEfficientEQAと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-26T19:48:47Z) - Instruction Embedding: Latent Representations of Instructions Towards Task Identification [20.327984896070053]
教育データにとって最も重要な側面は、特定の意味論や知識情報ではなく、それが表すタスクである。
本研究では,そのトレーニングと評価のための新しい概念,命令埋め込み,命令埋め込みベンチマーク(IEB)の構築について紹介する。
論文 参考訳(メタデータ) (2024-09-29T12:12:24Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - Can Foundation Models Watch, Talk and Guide You Step by Step to Make a
Cake? [62.59699229202307]
AIの進歩にもかかわらず、インタラクティブなタスクガイダンスシステムの開発は依然として大きな課題である。
我々は、人間のユーザと人間のインストラクターとの自然なインタラクションに基づいて、新しいマルチモーダルベンチマークデータセット、ウォッチ、トーク、ガイド(WTaG)を作成しました。
いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。
論文 参考訳(メタデータ) (2023-11-01T15:13:49Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Gotta: Generative Few-shot Question Answering by Prompt-based Cloze Data
Augmentation [18.531941086922256]
QA (Few-shot Question answering) は、コンテキストパスから一連の質問に対する回答を正確に発見することを目的としている。
我々は,ジェネレーティブPROmpTベースのdaTa拡張フレームワークであるGottaを開発した。
人間の推論プロセスにインスパイアされた我々は、クローズタスクを統合して、数発のQA学習を強化することを提案する。
論文 参考訳(メタデータ) (2023-06-07T01:44:43Z) - Asking Before Acting: Gather Information in Embodied Decision Making with Language Models [20.282749796376063]
本研究では,Large Language Models (LLM) が,不慣れな環境で重要な情報を効率的に収集する上で,課題に直面していることを示す。
我々は,自然言語を用いた関連する情報に対して,エージェントが外部ソースと積極的に問い合わせることを可能にする方法であるtextitAsking Before Acting (ABA)を提案する。
本研究では,テキストベースの日常タスク,ロボットアーム操作タスク,実世界のオープンドメインイメージベース実施タスクを含む,幅広い環境実験を行う。
論文 参考訳(メタデータ) (2023-05-25T04:05:08Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。