論文の概要: Less Detail, Better Answers: Degradation-Driven Prompting for VQA
- arxiv url: http://arxiv.org/abs/2604.04838v1
- Date: Mon, 06 Apr 2026 16:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.287685
- Title: Less Detail, Better Answers: Degradation-Driven Prompting for VQA
- Title(参考訳): より詳細で、より良い回答:VQAの劣化駆動型プロンプト
- Authors: Haoxuan Han, Weijie Wang, Zeyu Zhang, Yefei He, Bohan Zhuang,
- Abstract要約: Degradation-Driven Prompting (DDP)は、視覚質問応答(VQA)のパフォーマンスを改善する新しいフレームワークである。
DDPは、画像の忠実度を戦略的に低減し、モデルに本質的な構造情報に集中させる。
- 参考スコア(独自算出の注目度): 35.82803382206338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Vision-Language Models (VLMs) have significantly pushed the boundaries of Visual Question Answering (VQA).However,high-resolution details can sometimes become noise that leads to hallucinations or reasoning errors. In this paper,we propose Degradation-Driven Prompting (DDP), a novel framework that improves VQA performance by strategically reducing image fidelity to force models to focus on essential structural information. We evaluate DDP across two distinct tasks. Physical attributes targets images prone to human misjudgment, where DDP employs a combination of 80p downsampling, structural visual aids (white background masks and orthometric lines), and In-Context Learning (ICL) to calibrate the model's focus. Perceptual phenomena addresses various machine-susceptible visual anomalies and illusions, including Visual Anomaly (VA), Color (CI), Motion(MI),Gestalt (GI), Geometric (GSI), and Visual Illusions (VI).For this task, DDP integrates a task-classification stage with specialized tools such as blur masks and contrast enhancement alongside downsampling. Our experimental results demonstrate that less is more: by intentionally degrading visual inputs and providing targeted structural prompts, DDP enables VLMs to bypass distracting textures and achieve superior reasoning accuracy on challenging visual benchmarks.
- Abstract(参考訳): VLM(Vision-Language Models)の最近の進歩は、VQA(Visual Question Answering)の境界を大きく押し上げている。
しかし、高解像度の詳細は時に幻覚や推論の誤りにつながるノイズとなることがある。
本稿では,画像の忠実度を戦略的に低減し,本質的な構造情報に集中させ,VQA性能を向上させる新しいフレームワークであるDDPを提案する。
DDPを2つの異なるタスクで評価する。
物理的属性は、DDPが80pのダウンサンプリング、構造的視覚補助(白の背景マスクと整形線)、およびインコンテキストラーニング(ICL)を組み合わせて、モデルの焦点を校正する。
知覚現象は、視覚異常(VA)、色(CI)、運動(MI)、Gestalt(GI)、幾何学(GSI)、視覚錯覚(VI)など、機械が知覚できる視覚異常や錯覚に対処する。
このタスクのために、DDPはタスク分類段階を統合し、ボケマスクやコントラスト強化などの特殊なツールをダウンサンプリングと併用する。
視覚的入力を意図的に劣化させ、ターゲットとなる構造的プロンプトを提供することで、DDPはVLMを邪魔なテクスチャを回避し、挑戦的な視覚的ベンチマークにおいて優れた推論精度を実現することができる。
関連論文リスト
- MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - Visual CoT Makes VLMs Smarter but More Fragile [79.32638667101817]
チェーン・オブ・ソート(CoT)技術は視覚言語モデル(VLM)における推論を著しく向上させた
Visual CoTは、興味のある領域のトリミングや注釈付けなどの明示的なビジュアル編集を推論プロセスに統合する。
視覚摂動下での視覚的CoTロバスト性の最初の体系的評価について述べる。
論文 参考訳(メタデータ) (2025-09-28T10:19:59Z) - Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs [9.406760867809124]
本稿では,視覚入力構造を用いた拡張推論(VISER)を提案する。
VISERは、低レベルの空間構造を持つ視覚入力を増強する、シンプルで効果的な方法である。
私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
論文 参考訳(メタデータ) (2025-06-27T11:44:40Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding [5.976839106353883]
SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。
SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
論文 参考訳(メタデータ) (2025-06-10T02:55:38Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。