論文の概要: Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering
- arxiv url: http://arxiv.org/abs/2503.11117v1
- Date: Fri, 14 Mar 2025 06:29:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:22.913693
- Title: Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering
- Title(参考訳): 運命を超えて:探究を意識した質問回答のための新しいベンチマーク
- Authors: Kaixuan Jiang, Yang Liu, Weixing Chen, Jingzhou Luo, Ziliang Chen, Ling Pan, Guanbin Li, Liang Lin,
- Abstract要約: Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。
既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。
探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
- 参考スコア(独自算出の注目度): 87.76784654371312
- License:
- Abstract: Embodied Question Answering (EQA) is a challenging task in embodied intelligence that requires agents to dynamically explore 3D environments, actively gather visual information, and perform multi-step reasoning to answer questions. However, current EQA approaches suffer from critical limitations in exploration efficiency, dataset design, and evaluation metrics. Moreover, existing datasets often introduce biases or prior knowledge, leading to disembodied reasoning, while frontier-based exploration strategies struggle in cluttered environments and fail to ensure fine-grained exploration of task-relevant areas. To address these challenges, we construct the EXPloration-awaRe Embodied queStion anSwering Benchmark (EXPRESS-Bench), the largest dataset designed specifically to evaluate both exploration and reasoning capabilities. EXPRESS-Bench consists of 777 exploration trajectories and 2,044 question-trajectory pairs. To improve exploration efficiency, we propose Fine-EQA, a hybrid exploration model that integrates frontier-based and goal-oriented navigation to guide agents toward task-relevant regions more effectively. Additionally, we introduce a novel evaluation metric, Exploration-Answer Consistency (EAC), which ensures faithful assessment by measuring the alignment between answer grounding and exploration reliability. Extensive experimental comparisons with state-of-the-art EQA models demonstrate the effectiveness of our EXPRESS-Bench in advancing embodied exploration and question reasoning.
- Abstract(参考訳): EQA(Embodied Question Answering)は、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を実行することを要求する、インテリジェンス具体化における課題である。
しかし、現在のEQAアプローチは、探索効率、データセット設計、評価指標の限界に悩まされている。
さらに、既存のデータセットはバイアスや事前の知識を導入し、非暴力的推論を招き、フロンティアベースの探索戦略は乱雑な環境で苦労し、タスク関連領域のきめ細かい探索を確実にすることができない。
これらの課題に対処するため,Exploration-awaRe Embodied queSwering Benchmark(EXPRESS-Bench)を構築した。
EXPRESS-Benchは777の探索軌道と2,044の質問軌道からなる。
探索効率を向上させるために,フロンティアベースと目標指向ナビゲーションを統合したハイブリッド探索モデルであるFine-EQAを提案し,タスク関連領域へのエージェントの誘導を効果的に行う。
さらに,新たな評価基準である探索-回答整合性(EAC)を導入し,回答基盤と探索信頼性の整合性を測定し,忠実な評価を確実にする。
最先端のEQAモデルとの大規模な実験による比較は、我々のExpression-Benchがエンボディドサーベイと質問推論の進歩に有効であることを証明している。
関連論文リスト
- Divide-and-Conquer: Tree-structured Strategy with Answer Distribution Estimator for Goal-Oriented Visual Dialogue [30.126882554391837]
Answer Distribution Estimator(TSADE)を用いた樹木構造戦略
本稿では,現在の候補オブジェクトの半数を各ラウンドで除外することで,質問生成をガイドする木構造戦略(TSADE)を提案する。
提案手法は,従来のエルゴディックな質問生成手法と比較して,繰り返し質問やラウンドの少ないタスク指向の精度をエージェントが達成できることを実験的に実証する。
論文 参考訳(メタデータ) (2025-02-09T08:16:09Z) - EfficientEQA: An Efficient Approach for Open Vocabulary Embodied Question Answering [21.114403949257934]
EQA(Embodied Question Answering)は、ロボットホームアシスタントにとって不可欠な課題である。
近年の研究では、大規模視覚言語モデル(VLM)がEQAに有効に活用できることが示されているが、既存の研究はビデオベースの質問応答に焦点を当てているか、クローズドフォームの選択セットに依存している。
オープン語彙EQAのためのEfficientEQAと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-26T19:48:47Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。
RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。
RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - Collaborative Knowledge Infusion for Low-resource Stance Detection [83.88515573352795]
姿勢検出モデルを支援するために、ターゲット関連の知識がしばしば必要である。
低リソース姿勢検出タスクに対する協調的知識注入手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T08:32:14Z) - Explore until Confident: Efficient Exploration for Embodied Question Answering [32.27111287314288]
我々は、大きな視覚言語モデルの強力な意味推論機能を活用して、質問を効率的に探索し、答える。
深度情報とVLMの視覚的プロンプトに基づいて,まずシーンのセマンティックマップを構築する手法を提案する。
次に、コンフォメーション予測を用いて、自信に答えるVLMの質問を校正し、いつ探索を中止するかをロボットが知ることができるようにする。
論文 参考訳(メタデータ) (2024-03-23T22:04:03Z) - ELBA: Learning by Asking for Embodied Visual Navigation and Task Completion [11.068806371839424]
本稿では,タスク完了のための追加情報を動的に取得するために,いつ,どの質問をするかを学習するELBA(Embodied Learning-By-Asking)モデルを提案する。
実験結果から,提案手法は質問応答能力のないベースラインモデルと比較して,タスク性能の向上を図っている。
論文 参考訳(メタデータ) (2023-02-09T18:59:41Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。