論文の概要: When Robots Should Say "I Don't Know": Benchmarking Abstention in Embodied Question Answering
- arxiv url: http://arxiv.org/abs/2512.04597v1
- Date: Thu, 04 Dec 2025 09:17:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.086859
- Title: When Robots Should Say "I Don't Know": Benchmarking Abstention in Embodied Question Answering
- Title(参考訳): ロボットが「知らない」と言うべき時
- Authors: Tao Wu, Chuhao Zhou, Guangyu Zhao, Haozhi Cao, Yewen Pu, Jianfei Yang,
- Abstract要約: EQA(Embodied Question Answering)は、エージェントが言語を解釈し、その環境を認識し、3Dシーン内をナビゲートして応答を生成する。
我々は、EQAエージェントに対する最小限の要件、棄権:いつ回答を控えるかを知ることに注力する。
我々は,行動可能性,参照的不特定性,嗜好依存,情報利用不能,虚偽の先入観の5つのカテゴリーを抽出した。
- 参考スコア(独自算出の注目度): 27.058973883094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied Question Answering (EQA) requires an agent to interpret language, perceive its environment, and navigate within 3D scenes to produce responses. Existing EQA benchmarks assume that every question must be answered, but embodied agents should know when they do not have sufficient information to answer. In this work, we focus on a minimal requirement for EQA agents, abstention: knowing when to withhold an answer. From an initial study of 500 human queries, we find that 32.4% contain missing or underspecified context. Drawing on this initial study and cognitive theories of human communication errors, we derive five representative categories requiring abstention: actionability limitation, referential underspecification, preference dependence, information unavailability, and false presupposition. We augment OpenEQA by having annotators transform well-posed questions into ambiguous variants outlined by these categories. The resulting dataset, AbstainEQA, comprises 1,636 annotated abstention cases paired with 1,636 original OpenEQA instances for balanced evaluation. Evaluating on AbstainEQA, we find that even the best frontier model only attains 42.79% abstention recall, while humans achieve 91.17%. We also find that scaling, prompting, and reasoning only yield marginal gains, and that fine-tuned models overfit to textual cues. Together, these results position abstention as a fundamental prerequisite for reliable interaction in embodied settings and as a necessary basis for effective clarification.
- Abstract(参考訳): EQA(Embodied Question Answering)は、エージェントが言語を解釈し、その環境を認識し、3Dシーン内をナビゲートして応答を生成する。
既存のEQAベンチマークでは、すべての質問は答えなければならないが、具体的エージェントは答えるだけの十分な情報を持っていないことを知るべきである。
本研究では、EQAエージェントに対する最小限の要件、つまり、いつ回答を控えるかを知ることに集中する。
500の人間のクエリに関する最初の研究から、32.4%が欠落または未特定のコンテキストを含んでいることがわかった。
この最初の研究と人間のコミュニケーションエラーの認知理論に基づいて、行動可能性制限、参照的不特定性、嗜好依存、情報利用不可、偽の前提の5つのカテゴリーを導出した。
我々は、アノテータがよく提示された質問をこれらのカテゴリで概説されたあいまいな変種に変換することでOpenEQAを拡大する。
その結果得られたデータセットであるAbstainEQAは、バランスの取れた評価のために、1,636のオリジナルのOpenEQAインスタンスと組み合わせられた1,636のアノテーション付き禁忌ケースで構成されている。
AbstainEQAを評価すると、最高のフロンティアモデルでさえ42.79%の棄権リコールしか得られず、人間は91.17%に達する。
また、スケーリング、プロンプト、推論は限界利得しか得られず、微調整されたモデルはテキストの手がかりに過度に適合していることもわかりました。
これらの結果は, 具体的環境下での信頼性の高い相互作用の基本的な前提条件として, 効果的に解明するために必要な基礎として, 禁忌を位置づけた。
関連論文リスト
- AURA Score: A Metric For Holistic Audio Question Answering Evaluation [57.042210272137396]
AQAメトリクスのシステマティックなベンチマークを可能にするために、AQEvalを導入します。
これはこの種の最初のベンチマークであり、その正確さと妥当性のために、複数の人間が注釈付けした10kモデル応答で構成されている。
第2に、既存のAQAメトリクスをAQEval上で総合的に分析し、人間の判断と弱い相関を明らかにする。
第3に、オープンなモデル応答をよりよく評価するための新しい指標であるAURAスコアを提案する。
論文 参考訳(メタデータ) (2025-10-06T15:41:34Z) - Pathways of Thoughts: Multi-Directional Thinking for Long-form Personalized Question Answering [57.12316804290369]
ユーザ固有の情報ニーズに質問応答システムを適用するためには,パーソナライゼーションが不可欠である。
本稿では,タスク固有の微調整を必要とせず,任意の大規模言語モデル (LLM) に適用可能な推論段階の方法として,思考の経路 (PoT) を提案する。
PoTは競争ベースラインを一貫して上回り、13.1%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2025-09-23T14:44:46Z) - CondAmbigQA: A Benchmark and Dataset for Conditional Ambiguous Question Answering [9.50840225852638]
Conditional Ambiguous Question-Answering (CondAmbigQA) は2000の曖昧なクエリと条件対応評価指標からなるベンチマークである。
実験により、回答前の条件を考慮したモデルでは解答精度が11.75%向上し、条件が明示された場合にさらに7.15%向上することが示されている。
論文 参考訳(メタデータ) (2025-02-03T17:01:51Z) - SubjECTive-QA: Measuring Subjectivity in Earnings Call Transcripts' QA Through Six-Dimensional Feature Analysis [4.368712652579087]
SubjECTive-QAはEarnings Call Transcripts' (ECTs)上の人間の注釈付きデータセットである
データセットには、Assertive, Cautious, Optimistic, Specific, Clear, Relevantという6つの機能からなる、長期QAペア用の49,446のアノテーションが含まれている。
以上の結果から,Llama-3-70b-Chatと同様の重み付きF1スコアが得られた。
論文 参考訳(メタデータ) (2024-10-28T01:17:34Z) - EfficientEQA: An Efficient Approach to Open-Vocabulary Embodied Question Answering [21.114403949257934]
大規模視覚言語モデル(VLM)は、EQA(Embodied Question Answering)を約束している。
既存のアプローチでは、アクティブな探索をせずに静的なビデオ質問応答として扱うか、あるいはクローズドな選択に対する回答を制限するかのどちらかである。
EfficientEQAは,効率的な探索と自由形式の回答生成を両立させる新しいフレームワークである。
実験結果から,EQAの解答精度は15%以上向上し,最先端手法よりも20%以上の探索ステップが要求されることがわかった。
論文 参考訳(メタデータ) (2024-10-26T19:48:47Z) - Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering [48.43453390717167]
本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。
以前のEQAの作業とは異なり、状況的クエリでは、エージェントが複数のオブジェクト状態を正しく識別し、回答のために状態に関するコンセンサスに到達する必要がある。
本稿では, LLMの出力をラップして, 独自のコンセンサスクエリとそれに対応するコンセンサスオブジェクト情報を生成する新しいPrompt-Generate-Evaluateスキームを提案する。
論文 参考訳(メタデータ) (2024-05-08T00:45:20Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Attention-Based Methods For Audio Question Answering [16.82832919748399]
本稿では,音声質問応答タスクに対する自己注意と相互注意に基づくニューラルネットワークアーキテクチャを提案する。
すべてのモデルは、最近提案されたClatho-AQAデータセットに基づいて、バイナリのye/no質問とシングルワードの回答質問の両方でトレーニングされています。
論文 参考訳(メタデータ) (2023-05-31T12:00:51Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。