論文の概要: FAST-EQA: Efficient Embodied Question Answering with Global and Local Region Relevancy
- arxiv url: http://arxiv.org/abs/2602.15813v1
- Date: Tue, 17 Feb 2026 18:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.516978
- Title: FAST-EQA: Efficient Embodied Question Answering with Global and Local Region Relevancy
- Title(参考訳): FAST-EQA:グローバルおよび地域関連性を考慮した効率的な身体的質問応答
- Authors: Haochen Zhang, Nirav Savaliya, Faizan Siddiqui, Enna Sachdeva,
- Abstract要約: EQA(Embodied Question Answering)は、視覚的シーン理解、ゴール指向探索、空間的および時間的推論を部分的に観察可能である。
FAST-EQA は (i) 視覚的対象を識別し, (ii) ナビゲーションをガイドするためのグローバルな関心領域をスコアし, (iii) 視覚記憶を推論して自信を持って回答するフレームワークである。
- 参考スコア(独自算出の注目度): 5.072152236331295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied Question Answering (EQA) combines visual scene understanding, goal-directed exploration, spatial and temporal reasoning under partial observability. A central challenge is to confine physical search to question-relevant subspaces while maintaining a compact, actionable memory of observations. Furthermore, for real-world deployment, fast inference time during exploration is crucial. We introduce FAST-EQA, a question-conditioned framework that (i) identifies likely visual targets, (ii) scores global regions of interest to guide navigation, and (iii) employs Chain-of-Thought (CoT) reasoning over visual memory to answer confidently. FAST-EQA maintains a bounded scene memory that stores a fixed-capacity set of region-target hypotheses and updates them online, enabling robust handling of both single and multi-target questions without unbounded growth. To expand coverage efficiently, a global exploration policy treats narrow openings and doors as high-value frontiers, complementing local target seeking with minimal computation. Together, these components focus the agent's attention, improve scene coverage, and improve answer reliability while running substantially faster than prior approaches. On HMEQA and EXPRESS-Bench, FAST-EQA achieves state-of-the-art performance, while performing competitively on OpenEQA and MT-HM3D.
- Abstract(参考訳): EQA(Embodied Question Answering)は、視覚的シーン理解、ゴール指向探索、空間的および時間的推論を部分的に観察可能である。
中心的な課題は、コンパクトで行動可能な観測メモリを維持しながら、質問関連部分空間への物理探索を限定することである。
さらに、現実世界のデプロイメントでは、探索中の高速な推論時間が非常に重要です。
質問条件付きフレームワークであるFAST-EQAを紹介する。
(i)潜在的な視覚的標的を特定する。
(二)航法案内の国際的関心領域を採点し、
(iii) 視覚記憶を推論するChain-of-Thought(CoT)を用いて、自信を持って答える。
FAST-EQAは、領域目標仮説の固定容量セットを格納した境界シーンメモリを維持し、それらをオンラインで更新し、無制限な成長なしにシングルとマルチターゲットの質問の堅牢なハンドリングを可能にする。
カバー範囲を効率的に拡大するため、グローバルな探索ポリシでは、狭い開口部とドアを高価値フロンティアとして扱い、最小限の計算でローカルターゲットの探索を補完する。
これらのコンポーネントは、エージェントの注意を集中し、シーンカバレッジを改善し、回答の信頼性を改善しながら、以前のアプローチよりもかなり高速に動作します。
HMEQAとEXPRESS-Benchでは、FAST-EQAは最先端のパフォーマンスを実現し、OpenEQAとMT-HM3Dで競合する。
関連論文リスト
- Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。
本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。
具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。
人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2026-02-10T10:16:27Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。
既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。
探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文 参考訳(メタデータ) (2025-03-14T06:29:47Z) - EfficientEQA: An Efficient Approach to Open-Vocabulary Embodied Question Answering [21.114403949257934]
大規模視覚言語モデル(VLM)は、EQA(Embodied Question Answering)を約束している。
既存のアプローチでは、アクティブな探索をせずに静的なビデオ質問応答として扱うか、あるいはクローズドな選択に対する回答を制限するかのどちらかである。
EfficientEQAは,効率的な探索と自由形式の回答生成を両立させる新しいフレームワークである。
実験結果から,EQAの解答精度は15%以上向上し,最先端手法よりも20%以上の探索ステップが要求されることがわかった。
論文 参考訳(メタデータ) (2024-10-26T19:48:47Z) - Focus on Local Regions for Query-based Object Detection [14.982147587695652]
本稿では,デコーダのみを備えたトランスフォーマー型アーキテクチャであるFoLRを提案する。
無関係なオブジェクト間の接続を分離することで、自己注意を改善する。
また、クエリの局所領域に基づいて効率的な特徴を抽出する適応サンプリング手法を設計する。
論文 参考訳(メタデータ) (2023-10-10T09:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。