論文の概要: AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions
- arxiv url: http://arxiv.org/abs/2603.07394v1
- Date: Sun, 08 Mar 2026 00:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.400788
- Title: AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions
- Title(参考訳): AQuA:曖昧な視覚的質問に対する戦略応答生成に向けて
- Authors: Jihyoung Jang, Hyounghun Kim,
- Abstract要約: 本稿では、あいまいなVQAインスタンスを4つのレベルに分類する、きめ細かいデータセットであるAmpliguous Visual Question Answering(AQuA)を紹介する。
あいまいなVQAに対してAQuAが戦略的応答生成を実現し、あいまいさを認識し、不確実性を管理し、文脈に適合した戦略に応答する能力を示す。
- 参考スコア(独自算出の注目度): 5.891896951832169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) is a core task for evaluating the capabilities of Vision-Language Models (VLMs). Existing VQA benchmarks primarily feature clear and unambiguous image-question pairs, whereas real-world scenarios often involve varying degrees of ambiguity that require nuanced reasoning and context-appropriate response strategies. Although recent studies have begun to address ambiguity in VQA, they lack (1) a systematic categorization of ambiguity levels and (2) datasets and models that support strategy-aware responses. In this paper, we introduce Ambiguous Visual Question Answering (AQuA), a fine-grained dataset that classifies ambiguous VQA instances into four levels according to the nature and degree of ambiguity, along with the optimal response strategy for each case. Our evaluation of diverse open-source and proprietary VLMs shows that most models fail to adapt their strategy to the ambiguity type, frequently producing overconfident answers rather than seeking clarification or acknowledging uncertainty. To address this challenge, we fine-tune VLMs on AQuA, enabling them to adaptively choose among multiple response strategies, such as directly answering, inferring intent from contextual cues, listing plausible alternatives, or requesting clarification. VLMs trained on AQuA achieve strategic response generation for ambiguous VQA, demonstrating the ability to recognize ambiguity, manage uncertainty, and respond with context-appropriate strategies, while outperforming both open-source and closed-source baselines.
- Abstract(参考訳): VQA(Visual Question Answering)は、視覚言語モデル(VLM)の機能を評価するための中核的なタスクである。
既存のVQAベンチマークは主に明確で曖昧なイメージクエストペアを特徴とするが、現実のシナリオでは、曖昧な推論とコンテキストに適した応答戦略を必要とする曖昧さの度合いが異なることが多い。
近年、VQAにおけるあいまいさに対処する研究が始まっているが、(1)あいまいさレベルを体系的に分類し、(2)戦略対応の応答をサポートするデータセットとモデルが欠落している。
本稿では,あいまいなVQAインスタンスを,各ケースに対して最適な応答戦略とともに,あいまいなVQAインスタンスの性質と程度に応じて4つのレベルに分類する,きめ細かなデータセットであるAmiguous Visual Question Answering(AQuA)を紹介する。
多様なオープンソースおよびプロプライエタリなVLMの評価は、ほとんどのモデルがあいまいさタイプに適応できず、不確実性を明らかにすることよりも、自信過剰な回答を頻繁に生み出していることを示している。
この課題に対処するため、我々はAQuA上でVLMを微調整し、直接応答、文脈的手がかりからの推論、妥当な選択肢の一覧、明確化の要求など、複数の応答戦略の中から適応的に選択することができる。
AQuAでトレーニングされたVLMは曖昧なVQAの戦略的応答生成を実現し、曖昧さを認識し、不確実性を管理し、コンテキストに適合した戦略に応答する能力を示しながら、オープンソースとクローズドソースの両方のベースラインを上回っている。
関連論文リスト
- Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions [24.349064784305316]
視覚的質問応答(VQA)の文脈では、ユーザーは様々な表現習慣のために視覚言語モデル(VLM)に対して曖昧な質問をすることが多い。
本稿では,VQAコンテキストにおける曖昧性の3つの共通カテゴリを対象とするbftextClearVQAベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-18T09:31:43Z) - LLMs Can Generate a Better Answer by Aggregating Their Own Responses [83.69632759174405]
大きな言語モデル(LLM)はタスク間で顕著な機能を示しているが、複雑な問題に直面している場合、追加のプロンプト技術を必要とすることが多い。
この制限は、共通LLMポストトレーニング手順が差別的判断タスクの明示的な監督を欠いているという事実に起因している、と我々は主張する。
本稿では,モデルの識別機能を必要とせず,解答品質を向上させる手法である生成自己集合(GSA)を提案する。
論文 参考訳(メタデータ) (2025-03-06T05:25:43Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit [59.10281630985958]
質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。
本稿では,各質問に対して最適なQA戦略を適応的に選択する動的手法を提案する。
提案手法は,複数のモジュールを持つQAシステムの適応的オーケストレーションに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-20T12:28:18Z) - Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA [8.498145119681437]
知識に基づく教育(DietCoke)のための多様化,エビデンス・トランニケーション,複合化を提案する。
ダイエットコークは、多様化、合理化、合奏の3段階からなる。
実験により、DietCokeは最先端のLCMベースのベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-18T16:06:38Z) - Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit
Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。
用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。
総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文 参考訳(メタデータ) (2021-01-06T19:14:23Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。