論文の概要: BLaVe-CoT: Consistency-Aware Visual Question Answering for Blind and Low Vision Users
- arxiv url: http://arxiv.org/abs/2509.06010v1
- Date: Sun, 07 Sep 2025 10:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.814636
- Title: BLaVe-CoT: Consistency-Aware Visual Question Answering for Blind and Low Vision Users
- Title(参考訳): BLaVe-CoT: ブラインドとロービジョンユーザのための一貫性を考慮した視覚質問応答
- Authors: Wanyin Cheng, Zanxi Ruan,
- Abstract要約: Visual Question Answering (VQA)は、Blind and Low Vision (BLV)ユーザを支援する大きな可能性を秘めている。
BLaVe-CoTは、あいまいさに直面した応答一貫性を推論するために設計されたVQAフレームワークである。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) holds great potential for assisting Blind and Low Vision (BLV) users, yet real-world usage remains challenging. Due to visual impairments, BLV users often take blurry or poorly framed photos and face difficulty in articulating specific questions about what they cannot fully see. As a result, their visual questions are frequently ambiguous, and different users may interpret them in diverse ways. This leads to multiple valid answers, each grounded in different image regions-posing a mismatch with conventional VQA systems that assume a single answer and region. To bridge this gap, we present BLaVe-CoT, a VQA framework designed to reason about answer consistency in the face of ambiguity. Our method proposes diverse candidate answers using a LoRA-tuned BLIP-2 model, then grounds each answer spatially using PolyFormer, and finally applies a chain-of-thought reasoning module to assess whether the answers refer to the same or different regions. Evaluated on the VQA-AnswerTherapy benchmark, BLaVe-CoT outperforms previous methods and proves more robust to the ambiguity and visual noise common in assistive settings. This work highlights the need for VQA systems that can adapt to real human uncertainty and provide inclusive support for BLV users. To foster further research and accessibility applications, we have made the code publicly available at https://github.com/Accecwan/BLaVe-CoT.
- Abstract(参考訳): Visual Question Answering (VQA) は Blind and Low Vision (BLV) ユーザを支援する大きな可能性を秘めている。
視覚障害のため、BLVユーザーはぼやけた写真やフレームの粗末な写真を撮り、何が完全に見えないのかという特定の疑問を明確にすることの難しさに直面することが多い。
その結果、視覚的質問はしばしば曖昧であり、異なるユーザーは様々な方法でそれらを解釈することができる。
これは複数の有効な答えをもたらし、それぞれ異なる画像領域に基礎を置いており、単一の答えと領域を仮定する従来のVQAシステムとミスマッチしている。
このギャップを埋めるために、あいまいさに直面して回答の一貫性を推論するVQAフレームワークであるBLaVe-CoTを紹介します。
提案手法は,LORA-tuned BLIP-2モデルを用いて多様な候補解を提案し,その各解をPolyFormerを用いて空間的にグラウンド化し,最後に,その解が同一または異なる領域を指すかどうかを評価するための連鎖推論モジュールを適用した。
VQA-AnswerTherapyベンチマークで評価すると、BLaVe-CoTは従来の手法よりも優れており、補助的な設定で一般的な曖昧さと視覚ノイズに対してより堅牢である。
この研究は、実際の人間の不確実性に適応し、BLVユーザーに包括的なサポートを提供するVQAシステムの必要性を強調している。
さらなる研究とアクセシビリティアプリケーションを促進するため、私たちはhttps://github.com/Accecwan/BLaVe-CoT.comでコードを公開しました。
関連論文リスト
- Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions [17.905632446959007]
視覚的質問応答(VQA)の文脈では、ユーザーは様々な表現習慣のために視覚言語モデル(VLM)に対して曖昧な質問をすることが多い。
本稿では,VQAコンテキストにおける曖昧性の3つの共通カテゴリを対象とするbftextClearVQAベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-18T09:31:43Z) - COLUMBUS: Evaluating COgnitive Lateral Understanding through Multiple-choice reBUSes [14.603382370403]
視覚的側方思考を多選択質問応答タスクとして定式化する。
タスク例をインスタンス化するための3段階の分類駆動手法について述べる。
テキストとアイコンのリバスパズルを用いたQAセット作成にタスクパイプラインを適用した総合ベンチマークであるCOLUMBUSを開発した。
論文 参考訳(メタデータ) (2024-09-06T06:49:55Z) - Long-Form Answers to Visual Questions from Blind and Low Vision People [54.00665222249701]
VizWiz-LFは視覚障害者(BLV)による視覚的質問に対する長文回答のデータセットである。
LFVQAの文の機能的役割を開発し,長文回答が質問応答以上の情報を含んでいることを示す。
論文 参考訳(メタデータ) (2024-08-12T17:15:02Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Point and Ask: Incorporating Pointing into Visual Question Answering [14.744503080484977]
VQA(Visual Question Answering)の拡張として,ポイントインプット質問の導入と動機付けを行う。
ポインティングは人間にとってほぼ普遍的なジェスチャーであり、現実世界のVQAはターゲット領域へのジェスチャーを含む可能性が高い。
我々は、人間の意図を推測する能力を含む、いくつかの視覚的認識課題を発見し、対処する。
論文 参考訳(メタデータ) (2020-11-27T11:43:45Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。