Fugu-MT 論文翻訳(概要): Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions

論文の概要: Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions

arxiv url: http://arxiv.org/abs/2507.13773v1
Date: Fri, 18 Jul 2025 09:31:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-21 20:43:26.244804
Title: Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions
Title（参考訳）: 視覚言語モデルによる質問:視覚的質問におけるあいまいさの解消
Authors: Pu Jian, Donglei Yu, Wen Yang, Shuo Ren, Jiajun Zhang,
Abstract要約: 視覚的質問応答(VQA)の文脈では、ユーザーは様々な表現習慣のために視覚言語モデル(VLM)に対して曖昧な質問をすることが多い。本稿では,VQAコンテキストにおける曖昧性の3つの共通カテゴリを対象とするbftextClearVQAベンチマークを提案する。
参考スコア（独自算出の注目度）: 17.905632446959007
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In visual question answering (VQA) context, users often pose ambiguous questions to visual language models (VLMs) due to varying expression habits. Existing research addresses such ambiguities primarily by rephrasing questions. These approaches neglect the inherently interactive nature of user interactions with VLMs, where ambiguities can be clarified through user feedback. However, research on interactive clarification faces two major challenges: (1) Benchmarks are absent to assess VLMs' capacity for resolving ambiguities through interaction; (2) VLMs are trained to prefer answering rather than asking, preventing them from seeking clarification. To overcome these challenges, we introduce \textbf{ClearVQA} benchmark, which targets three common categories of ambiguity in VQA context, and encompasses various VQA scenarios.
Abstract（参考訳）: 視覚的質問応答(VQA)の文脈では、ユーザーは様々な表現習慣のために視覚言語モデル(VLM)に対して曖昧な質問をすることが多い。既存の研究は、主に質問を言い換えることで、このような曖昧さに対処している。これらのアプローチは、ユーザからのフィードバックによってあいまいさを明確化できるVLMとのユーザインタラクションの本質的にインタラクティブな性質を無視している。しかしながら,対話的明確化の研究は,(1)対話によるあいまいさ解消のためのVLMの能力を評価するベンチマークが欠落している,(2)VLMは質問よりも回答を優先する,という2つの大きな課題に直面している。これらの課題を克服するために、VQAコンテキストにおける曖昧性の3つの共通カテゴリを対象とし、様々なVQAシナリオを包含する \textbf{ClearVQA} ベンチマークを導入する。

関連論文リスト

Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts [65.04791072532106]
視覚言語モデル(VLM)における長文抽出推論評価のためのベンチマークジェネレータであるLoCoVQAを提案する。 LoCoVQAは、数学的推論、VQA、そしてより長い視覚的コンテキストを持つ文字認識タスクのテスト例を拡張している。このテストは、VLMがクエリに応答する際の無関係な情報をどの程度無視できるかを評価する。
論文参考訳（メタデータ） (2024-06-24T17:58:03Z)
Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。質問応答データセットの実験結果から、APAはLLMに対して、あいまいなクエリを明示的に検出し、管理する権限を持つことが示された。我々の発見は、APAがゴールドスタンダードラベルのトレーニング、特にアウト・オブ・ディストリビューションのシナリオで優れていることを証明している。
論文参考訳（メタデータ） (2024-04-18T07:59:53Z)
Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文参考訳（メタデータ） (2024-02-23T02:24:36Z)
Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文参考訳（メタデータ） (2023-11-16T00:18:50Z)
Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。各推論質問は、元の質問の意図を明確に示す。そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文参考訳（メタデータ） (2023-11-15T15:40:46Z)
Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文参考訳（メタデータ） (2023-05-24T08:33:15Z)
Keeping the Questions Conversational: Using Structured Representations to Resolve Dependency in Conversational Question Answering [26.997542897342164]
本稿では,中間表現を会話の手がかりとして捉え,生成するための新しいフレームワークCONVSR(CONVQA using Structured Representations)を提案する。我々はQuACとCANARDのデータセット上でモデルをテストし、提案するフレームワークが標準的な質問書き直しモデルよりも優れたF1スコアを達成できることを実験結果により示す。
論文参考訳（メタデータ） (2023-04-14T13:42:32Z)
Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文参考訳（メタデータ） (2022-02-15T18:22:18Z)
Deciding Whether to Ask Clarifying Questions in Large-Scale Spoken Language Understanding [28.195853603190447]
大規模会話エージェントは、様々なあいまいさでユーザの発話を理解するのに苦しむことがある。本稿では,あいまいさと文脈的信号による仮説を生かした神経自覚モデルを提案する。
論文参考訳（メタデータ） (2021-09-25T22:32:10Z)
Learning from Lexical Perturbations for Consistent Visual Question Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。 VQA Perturbed Pairings (VQA P2) も提案する。
論文参考訳（メタデータ） (2020-11-26T17:38:03Z)
Knowledgeable Dialogue Reading Comprehension on Key Turns [84.1784903043884]
MRC(Multi-choice Machine reading comprehension)は、ある項目と質問に対する候補オプションから正しい回答を選択するモデルである。本研究は,複数回対話を行う対話型MRCに焦点を当てている。それは2つの課題に悩まされ、答えの選択決定は、最近役に立つコモンセンスをサポートせずに行われ、マルチターンコンテキストは、かなりの無関係な情報を隠蔽する可能性がある。
論文参考訳（メタデータ） (2020-04-29T07:04:43Z)
Rephrasing visual questions by specifying the entropy of the answer distribution [0.0]
本稿では,質問のあいまいさを制御し,新しい課題を提案する。視覚的質問のあいまいさは、VQAモデルによって予測される回答分布のエントロピーを用いて定義される。我々は,質問のあいまいさを制御できるアプローチの利点を実証し,あいまいさを減らすことよりも増大が難しいという興味深い観察を行った。
論文参考訳（メタデータ） (2020-04-10T09:32:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。