論文の概要: Multi-Step Reasoning for Embodied Question Answering via Tool Augmentation
- arxiv url: http://arxiv.org/abs/2510.20310v2
- Date: Mon, 27 Oct 2025 17:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.496018
- Title: Multi-Step Reasoning for Embodied Question Answering via Tool Augmentation
- Title(参考訳): ツール強化による身体的質問応答に対するマルチステップ推論
- Authors: Mingliang Zhai, Hansheng Liang, Xiaomeng Fan, Zhi Gao, Chuanhao Li, Che Sun, Xu Bin, Yuwei Wu, Yunde Jia,
- Abstract要約: EQA(Embodied Question Answering)は、エージェントが3D環境を探索して観察し、シーンに関連する質問に答えることを要求する。
外部ツールと多段階推論を統合するエージェントであるToolEQAを紹介する。
さらに,大規模EQAタスクを自動的に構築する新しいEQAデータ生成パイプラインを設計する。
- 参考スコア(独自算出の注目度): 42.392504686945614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied Question Answering (EQA) requires agents to explore 3D environments to obtain observations and answer questions related to the scene. Existing methods leverage VLMs to directly explore the environment and answer questions without explicit thinking or planning, which limits their reasoning ability and results in excessive or inefficient exploration as well as ineffective responses. In this paper, we introduce ToolEQA, an agent that integrates external tools with multi-step reasoning, where external tools can provide more useful information for completing the task, helping the model derive better exploration directions in the next step of reasoning and thus obtaining additional effective information. This enables ToolEQA to generate more accurate responses with a shorter exploration distance. To enhance the model's ability for tool-usage and multi-step reasoning, we further design a novel EQA data generation pipeline that automatically constructs large-scale EQA tasks with reasoning trajectories and corresponding answers. Based on the pipeline, we collect the EQA-RT dataset that contains about 18K tasks, divided into a training set EQA-RT-Train, and two test sets EQA-RT-Seen (scenes overlapping with the training set) and EQA-RT-Unseen (novel scenes). Experiments on EQA-RT-Seen and EQA-RT-Unseen show that ToolEQA improves the success rate by 9.2~20.2% over state-of-the-art baselines, while outperforming the zero-shot ToolEQA by 10% in success rate. In addition, ToolEQA also achieves state-of-the-art performance on the HM-EQA, OpenEQA, and EXPRESS-Bench datasets, demonstrating its generality. Our homepage see https://tooleqa.github.io.
- Abstract(参考訳): EQA(Embodied Question Answering)は、エージェントが3D環境を探索して観察し、シーンに関連する質問に答えることを要求する。
既存の手法はVLMを利用して環境を直接探索し、明確な思考や計画なしに質問に答える。
本稿では,外部ツールを多段階推論と統合するエージェントであるToolEQAを紹介する。このエージェントでは,外部ツールがタスク完了に有用な情報を提供し,モデルが推論の次のステップでより良い探索方向を導出し,さらに有効な情報を得るのに役立つ。
これにより、ToolEQAは短い探査距離でより正確な応答を生成することができる。
ツール・ユース・マルチステップ推論におけるモデルの能力を高めるために,推論軌道と対応する回答を伴って大規模EQAタスクを自動構築する新しいEQAデータ生成パイプラインを設計する。
パイプラインに基づいて、約18Kタスクを含むEQA-RTデータセットを収集し、トレーニングセットEQA-RT-Trainと、2つのテストセットEQA-RT-Seen(トレーニングセットと重複するシーン)とEQA-RT-Unseen(ノーベルシーン)に分割する。
EQA-RT-SeenとEQA-RT-Unseenの実験では、ツールEQAは最先端のベースラインよりも9.2~20.2%向上し、ゼロショットツールEQAは10%向上した。
さらに、ToolEQAはHM-EQA、OpenEQA、EXPRESS-Benchデータセットの最先端のパフォーマンスも達成し、その汎用性を示している。
私たちのホームページはhttps://tooleqa.github.ioです。
関連論文リスト
- AirQA: A Comprehensive QA Dataset for AI Research with Instance-Level Evaluation [31.02336903452371]
AirQAは人工知能(AI)分野における人手による包括的な紙QAデータセットである
3つのLDMベースのエージェントにより、ExTrActorは人間の介入なしにサンプル生成および軌道収集を行うことができる。
ExTrActorは、小さなモデルのマルチターンツール使用能力を一貫して改善し、より大きなモデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-21T07:24:17Z) - EQA-RM: A Generative Embodied Reward Model with Test-time Scaling [43.79542068802909]
EQA-RM(Embodied Question Answering, EQA)に特化して構築された新規なマルチモーダル報酬モデルについて紹介する。
EQA-RMの生成特性は、単純なスカラー以外に、解釈可能で構造化された報酬フィードバックを提供する
EQARewardBenchは、標準化されたEQA報酬モデルアセスメントのためのOpenEQA上に構築された新しいベンチマークである。
論文 参考訳(メタデータ) (2025-06-12T06:25:04Z) - Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。
既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。
探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文 参考訳(メタデータ) (2025-03-14T06:29:47Z) - EfficientEQA: An Efficient Approach to Open-Vocabulary Embodied Question Answering [21.114403949257934]
大規模視覚言語モデル(VLM)は、EQA(Embodied Question Answering)を約束している。
既存のアプローチでは、アクティブな探索をせずに静的なビデオ質問応答として扱うか、あるいはクローズドな選択に対する回答を制限するかのどちらかである。
EfficientEQAは,効率的な探索と自由形式の回答生成を両立させる新しいフレームワークである。
実験結果から,EQAの解答精度は15%以上向上し,最先端手法よりも20%以上の探索ステップが要求されることがわかった。
論文 参考訳(メタデータ) (2024-10-26T19:48:47Z) - AQUALLM: Audio Question Answering Data Generation Using Large Language
Models [2.2232550112727267]
大規模言語モデル(LLM)に依存するスケーラブルなAQAデータ生成パイプラインを導入する。
AQAのための広範かつ高品質なベンチマークデータセットを3つ提示する。
我々のデータセットでトレーニングされたモデルは、人間の注釈付きAQAデータを用いてトレーニングされたモデルと比較して、拡張された一般化可能性を示す。
論文 参考訳(メタデータ) (2023-12-28T20:01:27Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。