論文の概要: Discovering Failure Modes in Vision-Language Models using RL
- arxiv url: http://arxiv.org/abs/2604.04733v1
- Date: Mon, 06 Apr 2026 15:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.236215
- Title: Discovering Failure Modes in Vision-Language Models using RL
- Title(参考訳): RLを用いた視覚言語モデルにおける故障モードの発見
- Authors: Kanishk Jain, Qian Yang, Shravan Nayak, Parisa Kordjamshidi, Nishanth Anand, Aishwarya Agrawal,
- Abstract要約: 視覚言語モデル(VLM)は、人間が力ずくで識別する単純な視覚概念を誤解することが多い。
以前の研究では、これらの弱点を手動で特定し、しばしば特定のスキルの欠陥に起因することが判明した。
本稿では,任意の候補VLMの障害モードや盲点を自動的に検出する強化学習(RL)ベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.02753553386619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language Models (VLMs), despite achieving strong performance on multimodal benchmarks, often misinterpret straightforward visual concepts that humans identify effortlessly, such as counting, spatial reasoning, and viewpoint understanding. Previous studies manually identified these weaknesses and found that they often stem from deficits in specific skills. However, such manual efforts are costly, unscalable, and subject to human bias, which often overlooks subtle details in favor of salient objects, resulting in an incomplete understanding of a model's vulnerabilities. To address these limitations, we propose a Reinforcement Learning (RL)-based framework to automatically discover the failure modes or blind spots of any candidate VLM on a given data distribution without human intervention. Our framework trains a questioner agent that adaptively generates queries based on the candidate VLM's responses to elicit incorrect answers. Our approach increases question complexity by focusing on fine-grained visual details and distinct skill compositions as training progresses, consequently identifying 36 novel failure modes in which VLMs struggle. We demonstrate the broad applicability of our framework by showcasing its generalizability across various model combinations.
- Abstract(参考訳): 視覚言語モデル(VLM)は、マルチモーダルなベンチマークで強いパフォーマンスを達成したにもかかわらず、数え上げ、空間的推論、視点理解など、人間が努力的に識別する直感的な視覚概念を誤解することが多い。
以前の研究では、これらの弱点を手動で特定し、しばしば特定のスキルの欠陥に起因することが判明した。
しかし、このような手作業は費用がかかり、膨らみがなく、人間の偏見に晒され、しばしば微妙な細部を見落とし、モデルの脆弱性を不完全に理解する。
これらの制約に対処するため、人間の介入なしに任意の候補VLMの障害モードや盲点を自動的に検出する強化学習(RL)ベースのフレームワークを提案する。
本フレームワークは,候補VLMの応答に基づいた質問応答を適応的に生成する質問者エージェントを訓練する。
提案手法は,VLMが苦戦する36種類の新しい障害モードを識別し,詳細な視覚的詳細と異なるスキル構成に焦点をあてることにより,質問の複雑さを増大させる。
様々なモデルの組み合わせにまたがる一般化性を示すことによって、フレームワークの幅広い適用性を示す。
関連論文リスト
- MentisOculi: Revealing the Limits of Reasoning with Mental Imagery [63.285794947638614]
視覚的解決が可能な多段階推論問題の組である MentisOculi を開発した。
遅延トークンから明示的な生成画像まで,視覚的戦略を評価すると,一般的にはパフォーマンス向上に失敗する。
以上の結果から,視覚的思考がモデル推論の恩恵を受けていないことが示唆された。
論文 参考訳(メタデータ) (2026-02-02T18:49:06Z) - AMVICC: A Novel Benchmark for Cross-Modal Failure Mode Profiling for VLMs and IGMs [2.357397994148727]
マルチモーダル大言語モデル (MLLM) と画像生成モデル (IGM) について検討した。
我々は、画像からテキストまでのタスクとテキストから画像までのタスクの障害モードを比較するための新しいベンチマークを作成しました。
この結果から,障害モードはモデルとモダリティの間で共有されることが多いが,特定の障害はモデル固有かつモダリティ固有であることがわかった。
論文 参考訳(メタデータ) (2026-01-20T00:06:58Z) - Beyond Generation: Multi-Hop Reasoning for Factual Accuracy in Vision-Language Models [0.0]
ビジュアル言語モデル(VLM)は強力な生成ツールであるが、しばしば事実的に正確な出力を生成する。
本研究は、知識誘導推論のためのフレームワークをVLMで導入し、マルチホップ検証に構造化知識グラフを活用する。
本研究では,階層的・三点的・三点的・三点的・三点的知識表現を用いた枠組みの評価を行い,実効性と論理的推論性について分析した。
論文 参考訳(メタデータ) (2025-11-25T17:34:32Z) - Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。
応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。
本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-10-01T09:20:51Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。