論文の概要: Map-based Modular Approach for Zero-shot Embodied Question Answering
- arxiv url: http://arxiv.org/abs/2405.16559v2
- Date: Sun, 13 Oct 2024 03:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 21:41:27.904588
- Title: Map-based Modular Approach for Zero-shot Embodied Question Answering
- Title(参考訳): ゼロショット型質問応答に対するマップベースモジュラーアプローチ
- Authors: Koya Sakamoto, Daichi Azuma, Taiki Miyanishi, Shuhei Kurita, Motoaki Kawanabe,
- Abstract要約: EQA(Embodied Question Answering)は、ロボットが新しい環境でナビゲートできる能力を評価するためのベンチマークタスクである。
本稿では,実世界のロボットが未知の環境を探索・地図化できるように,EQAに対するマップベースのモジュラーアプローチを提案する。
- 参考スコア(独自算出の注目度): 9.234108543963568
- License:
- Abstract: Embodied Question Answering (EQA) serves as a benchmark task to evaluate the capability of robots to navigate within novel environments and identify objects in response to human queries. However, existing EQA methods often rely on simulated environments and operate with limited vocabularies. This paper presents a map-based modular approach to EQA, enabling real-world robots to explore and map unknown environments. By leveraging foundation models, our method facilitates answering a diverse range of questions using natural language. We conducted extensive experiments in both virtual and real-world settings, demonstrating the robustness of our approach in navigating and comprehending queries within unknown environments.
- Abstract(参考訳): EQA(Embodied Question Answering)は、ロボットが新しい環境でナビゲートし、人間のクエリに応答してオブジェクトを識別する能力を評価するためのベンチマークタスクである。
しかし、既存のEQAメソッドは、しばしばシミュレートされた環境に依存し、限られた語彙で操作する。
本稿では,実世界のロボットが未知の環境を探索・地図化できるように,EQAに対するマップベースのモジュラーアプローチを提案する。
本手法は,基礎モデルを活用することにより,自然言語を用いた多様な質問への回答を容易にする。
仮想環境と実環境環境の両方で広範な実験を行い、未知の環境におけるクエリのナビゲートと解釈における我々のアプローチの堅牢性を実証した。
関連論文リスト
- EfficientEQA: An Efficient Approach for Open Vocabulary Embodied Question Answering [21.114403949257934]
EQA(Embodied Question Answering)は、ロボットホームアシスタントにとって不可欠な課題である。
近年の研究では、大規模視覚言語モデル(VLM)がEQAに有効に活用できることが示されているが、既存の研究はビデオベースの質問応答に焦点を当てているか、クローズドフォームの選択セットに依存している。
オープン語彙EQAのためのEfficientEQAと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-26T19:48:47Z) - E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models [16.50787220881633]
大規模言語モデル(LLM)は、言語命令を実行するためのエンボディエージェントを誘導する大きな可能性を示している。
既存の手法は主に静的環境向けに設計されており、エージェント自身の経験を生かして初期計画を洗練しない。
本研究は,LLMの知識とエージェントの現実世界の経験を統合した経験・感情マップ(E2Map)を紹介する。
論文 参考訳(メタデータ) (2024-09-16T06:35:18Z) - "Is This It?": Towards Ecologically Valid Benchmarks for Situated Collaboration [16.25921668308458]
そこで我々は,大規模なマルチモーダルモデルによる協調作業を行う能力を評価するためのベンチマークを開発した。
既存のベンチマークとは対照的に,既存のデータセットや合成データセットに対して,テンプレートや人間のアノテータ,あるいは大規模言語モデルを用いて質問応答ペアを生成する場合,インタラクティブなシステム駆動アプローチを提案し,検討する。
既存のEQA(Embodied Question answering)ベンチマークでよく見られる質問の形式や内容がどう違うのかを説明し、新たな現実的な課題を議論する。
論文 参考訳(メタデータ) (2024-08-30T12:41:23Z) - Answerability Fields: Answerable Location Estimation via Diffusion Models [9.234108543963568]
本研究では,複雑な屋内環境における解答可能性を予測する新しい手法Answerability Fieldsを提案する。
本研究は,現場下での作業指導における解答性フィールドの有効性を示すものである。
論文 参考訳(メタデータ) (2024-07-26T04:02:46Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models [16.50443396055173]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。
まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。
次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文 参考訳(メタデータ) (2024-02-16T13:21:33Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。