Fugu-MT 論文翻訳(概要): Learning by Asking for Embodied Visual Navigation and Task Completion

論文の概要: Learning by Asking for Embodied Visual Navigation and Task Completion

arxiv url: http://arxiv.org/abs/2302.04865v1
Date: Thu, 9 Feb 2023 18:59:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-10 14:31:28.919456
Title: Learning by Asking for Embodied Visual Navigation and Task Completion
Title（参考訳）: 身体的視覚ナビゲーションとタスク完了のためのエイキングによる学習
Authors: Ying Shen and Ismini Lourentzou
Abstract要約: 本稿では,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するELBA(Embodied Learning-By-Asking)モデルを提案する。実験結果から,ELBAは質問応答能力のないベースラインモデルに比べ,タスク性能の向上を図っている。
参考スコア（独自算出の注目度）: 20.0182240268864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The research community has shown increasing interest in designing intelligent embodied agents that can assist humans in accomplishing tasks. Despite recent progress on related vision-language benchmarks, most prior work has focused on building agents that follow instructions rather than endowing agents the ability to ask questions to actively resolve ambiguities arising naturally in embodied environments. To empower embodied agents with the ability to interact with humans, in this work, we propose an Embodied Learning-By-Asking (ELBA) model that learns when and what questions to ask to dynamically acquire additional information for completing the task. We evaluate our model on the TEACH vision-dialog navigation and task completion dataset. Experimental results show that ELBA achieves improved task performance compared to baseline models without question-answering capabilities.
Abstract（参考訳）: 研究コミュニティは、タスクの達成を支援するインテリジェントな具体化エージェントの設計への関心が高まっている。視覚言語ベンチマークの最近の進歩にもかかわらず、ほとんどの先行研究は、内挿エージェントではなく指示に従うエージェントを構築することに重点を置いてきた。本研究は,人間と対話する能力を持つエンボディエージェントを強化するために,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するEmbodied Learning-By-Asking(ELBA)モデルを提案する。 teaching vision-dialog navigation と task completion dataset を用いたモデルの評価を行った。実験結果から,ELBAは質問応答能力のないベースラインモデルに比べ,タスク性能の向上を図っている。

関連論文リスト

Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文参考訳（メタデータ） (2025-03-14T06:29:47Z)
Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文参考訳（メタデータ） (2025-02-18T17:12:26Z)
EfficientEQA: An Efficient Approach for Open Vocabulary Embodied Question Answering [21.114403949257934]
EQA(Embodied Question Answering)は、ロボットホームアシスタントにとって不可欠な課題である。近年の研究では、大規模視覚言語モデル(VLM)がEQAに有効に活用できることが示されているが、既存の研究はビデオベースの質問応答に焦点を当てているか、クローズドフォームの選択セットに依存している。オープン語彙EQAのためのEfficientEQAと呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-26T19:48:47Z)
Instruction Embedding: Latent Representations of Instructions Towards Task Identification [20.327984896070053]
教育データにとって最も重要な側面は、特定の意味論や知識情報ではなく、それが表すタスクである。本研究では,そのトレーニングと評価のための新しい概念,命令埋め込み,命令埋め込みベンチマーク(IEB)の構築について紹介する。
論文参考訳（メタデータ） (2024-09-29T12:12:24Z)
A Survey on Complex Tasks for Goal-Directed Interactive Agents [60.53915548970061]
この調査は、目標指向の対話エージェントを評価するための、関連するタスクと環境をコンパイルする。関連リソースの最新のコンパイルは、プロジェクトのWebサイトにある。
論文参考訳（メタデータ） (2024-09-27T08:17:53Z)
WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。 WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文参考訳（メタデータ） (2024-04-11T03:31:54Z)
Improving Agent Interactions in Virtual Environments with Language Models [0.9790236766474201]
本研究は、Minecraftデータセットにおける集合的なビルディング割り当てに焦点を当てる。我々は,最先端手法によるタスク理解を強化するために,言語モデリングを採用している。
論文参考訳（メタデータ） (2024-02-08T06:34:11Z)
Can Foundation Models Watch, Talk and Guide You Step by Step to Make a Cake? [62.59699229202307]
AIの進歩にもかかわらず、インタラクティブなタスクガイダンスシステムの開発は依然として大きな課題である。我々は、人間のユーザと人間のインストラクターとの自然なインタラクションに基づいて、新しいマルチモーダルベンチマークデータセット、ウォッチ、トーク、ガイド(WTaG)を作成しました。いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。
論文参考訳（メタデータ） (2023-11-01T15:13:49Z)
Active Instruction Tuning: Improving Cross-Task Generalization by Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。 ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文参考訳（メタデータ） (2023-11-01T04:40:05Z)
Gotta: Generative Few-shot Question Answering by Prompt-based Cloze Data Augmentation [18.531941086922256]
QA (Few-shot Question answering) は、コンテキストパスから一連の質問に対する回答を正確に発見することを目的としている。我々は,ジェネレーティブPROmpTベースのdaTa拡張フレームワークであるGottaを開発した。人間の推論プロセスにインスパイアされた我々は、クローズタスクを統合して、数発のQA学習を強化することを提案する。
論文参考訳（メタデータ） (2023-06-07T01:44:43Z)
Asking Before Acting: Gather Information in Embodied Decision Making with Language Models [20.282749796376063]
本研究では,Large Language Models (LLM) が,不慣れな環境で重要な情報を効率的に収集する上で,課題に直面していることを示す。我々は,自然言語を用いた関連する情報に対して,エージェントが外部ソースと積極的に問い合わせることを可能にする方法であるtextitAsking Before Acting (ABA)を提案する。本研究では,テキストベースの日常タスク,ロボットアーム操作タスク,実世界のオープンドメインイメージベース実施タスクを含む,幅広い環境実験を行う。
論文参考訳（メタデータ） (2023-05-25T04:05:08Z)
Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文参考訳（メタデータ） (2022-10-12T15:02:04Z)
Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2021-07-19T15:56:01Z)
Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文参考訳（メタデータ） (2020-10-28T19:27:26Z)
LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文参考訳（メタデータ） (2020-07-31T00:13:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。