論文の概要: Map-based Modular Approach for Zero-shot Embodied Question Answering
- arxiv url: http://arxiv.org/abs/2405.16559v1
- Date: Sun, 26 May 2024 13:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 20:29:27.978008
- Title: Map-based Modular Approach for Zero-shot Embodied Question Answering
- Title(参考訳): ゼロショット型質問応答に対するマップベースモジュラーアプローチ
- Authors: Koya Sakamoto, Daichi Azuma, Taiki Miyanishi, Shuhei Kurita, Motoaki Kawanabe,
- Abstract要約: EQA(Embodied Question Answering)は、未確認の環境をナビゲートするオブジェクトを識別する能力を測定するためのベンチマークタスクとして提案されている。
本研究では,フロンティアをベースとした地図作成により,実際のロボットが未知の環境をナビゲートできるモジュール型EQA手法を提案する。
- 参考スコア(独自算出の注目度): 9.234108543963568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building robots capable of interacting with humans through natural language in the visual world presents a significant challenge in the field of robotics. To overcome this challenge, Embodied Question Answering (EQA) has been proposed as a benchmark task to measure the ability to identify an object navigating through a previously unseen environment in response to human-posed questions. Although some methods have been proposed, their evaluations have been limited to simulations, without experiments in real-world scenarios. Furthermore, all of these methods are constrained by a limited vocabulary for question-and-answer interactions, making them unsuitable for practical applications. In this work, we propose a map-based modular EQA method that enables real robots to navigate unknown environments through frontier-based map creation and address unknown QA pairs using foundation models that support open vocabulary. Unlike the questions of the previous EQA dataset on Matterport 3D (MP3D), questions in our real-world experiments contain various question formats and vocabularies not included in the training data. We conduct comprehensive experiments on virtual environments (MP3D-EQA) and two real-world house environments and demonstrate that our method can perform EQA even in the real world.
- Abstract(参考訳): 視覚の世界において、自然言語で人間と対話できるロボットを構築することは、ロボット工学の分野で大きな課題となっている。
この課題を克服するために、Embodied Question Answering (EQA) は、人間が提示した質問に応答して、これまで目に見えない環境をナビゲートする物体を識別する能力を測定するためのベンチマークタスクとして提案されている。
いくつかの手法が提案されているが、それらの評価はシミュレーションに限られており、実世界のシナリオでの実験は行われていない。
さらに、これらの手法はすべて質問と回答の相互作用に限定された語彙で制約されており、実用的な応用には適さない。
本研究では,実際のロボットがフロンティアベースの地図作成を通じて未知の環境をナビゲートし,オープン語彙をサポートする基礎モデルを用いて未知のQAペアに対処することのできる,マップベースのモジュール型EQA手法を提案する。
Matterport 3D(MP3D)に関する以前のEQAデータセットの質問とは異なり、実際の実験では、トレーニングデータに含まれていない様々な質問形式や語彙が含まれています。
我々は,仮想環境(MP3D-EQA)と2つの実世界の住宅環境に関する総合的な実験を行い,実世界においてもEQAを実現できることを示す。
関連論文リスト
- EfficientEQA: An Efficient Approach for Open Vocabulary Embodied Question Answering [21.114403949257934]
EQA(Embodied Question Answering)は、ロボットホームアシスタントにとって不可欠な課題である。
近年の研究では、大規模視覚言語モデル(VLM)がEQAに有効に活用できることが示されているが、既存の研究はビデオベースの質問応答に焦点を当てているか、クローズドフォームの選択セットに依存している。
オープン語彙EQAのためのEfficientEQAと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-26T19:48:47Z) - E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models [16.50787220881633]
大規模言語モデル(LLM)は、言語命令を実行するためのエンボディエージェントを誘導する大きな可能性を示している。
既存の手法は主に静的環境向けに設計されており、エージェント自身の経験を生かして初期計画を洗練しない。
本研究は,LLMの知識とエージェントの現実世界の経験を統合した経験・感情マップ(E2Map)を紹介する。
論文 参考訳(メタデータ) (2024-09-16T06:35:18Z) - "Is This It?": Towards Ecologically Valid Benchmarks for Situated Collaboration [16.25921668308458]
そこで我々は,大規模なマルチモーダルモデルによる協調作業を行う能力を評価するためのベンチマークを開発した。
既存のベンチマークとは対照的に,既存のデータセットや合成データセットに対して,テンプレートや人間のアノテータ,あるいは大規模言語モデルを用いて質問応答ペアを生成する場合,インタラクティブなシステム駆動アプローチを提案し,検討する。
既存のEQA(Embodied Question answering)ベンチマークでよく見られる質問の形式や内容がどう違うのかを説明し、新たな現実的な課題を議論する。
論文 参考訳(メタデータ) (2024-08-30T12:41:23Z) - Answerability Fields: Answerable Location Estimation via Diffusion Models [9.234108543963568]
本研究では,複雑な屋内環境における解答可能性を予測する新しい手法Answerability Fieldsを提案する。
本研究は,現場下での作業指導における解答性フィールドの有効性を示すものである。
論文 参考訳(メタデータ) (2024-07-26T04:02:46Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models [16.50443396055173]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。
まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。
次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文 参考訳(メタデータ) (2024-02-16T13:21:33Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。