論文の概要: DiVE-k: Differential Visual Reasoning for Fine-grained Image Recognition
- arxiv url: http://arxiv.org/abs/2511.18305v1
- Date: Sun, 23 Nov 2025 06:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.761082
- Title: DiVE-k: Differential Visual Reasoning for Fine-grained Image Recognition
- Title(参考訳): DiVE-k:微細な画像認識のための微分視覚推論
- Authors: Raja Kumar, Arka Sadhu, Ram Nevatia,
- Abstract要約: 大規模視覚言語モデル (LVLM) には広範なテキスト知識があるが、この知識を微細な画像認識に利用することは困難である。
Reinforcement Learning (RL) を用いた既存の微調整手法は、しばしば脆弱である。
モデル自身のトップk予測をトレーニング信号として活用するフレームワークであるDiVE-kを提案する。
- 参考スコア(独自算出の注目度): 9.243238586073245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (LVLMs) possess extensive text knowledge but struggles to utilize this knowledge for fine-grained image recognition, often failing to differentiate between visually similar categories. Existing fine-tuning methods using Reinforcement Learning (RL) with exact-match reward signals are often brittle, encourage memorization of training categories, and fail to elicit differential reasoning needed for generalization to unseen classes. To address this, we propose $\textbf{DiVE-k}$, $\textbf{Di}$fferential $\textbf{V}$isual r$\textbf{E}$asoning using top-$\textbf{k}$ generations, framework that leverages model's own top-k predictions as a training signal. For each training image, DiVE-k creates a multiple-choice question from the model's top-k outputs and uses RL to train the model to select the correct answer. This approach requires the model to perform fine-grained differential reasoning among plausible options and provides a simple, verifiable reward signal that mitigates memorization and improves generalization. Experiments on five standard fine-grained datasets show that our method significantly outperforms existing approaches. In the standard base-to-novel generalization setting, DiVE-k surpasses the QWEN2.5-VL-7B and ViRFT by 10.04% and 6.16% on the Harmonic Mean metric, respectively. Further experiments show similar gains in mixed-domain and few-shot scenarios.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) には広範なテキスト知識があるが、この知識を微細な画像認識に利用することは困難であり、視覚的に類似したカテゴリの区別に失敗することが多い。
既存のReinforcement Learning (RL) と正確なマッチング報酬信号を用いた微調整手法は、しばしば脆くなり、トレーニングカテゴリの記憶を奨励し、未確認クラスへの一般化に必要な差分推論を引き出すことができない。
これを解決するために、モデル自身のトップk予測をトレーニング信号として利用するフレームワークである、$\textbf{DiVE-k}$, $\textbf{Di}$fferential $\textbf{V}$isual r$\textbf{E}$asoningを提案する。
各トレーニング画像に対して、DiVE-kはモデルのトップk出力から複数の選択質問を生成し、RLを使用してモデルに正しい回答を選択するようにトレーニングする。
このアプローチでは、プラウチブルオプション間で詳細な微分推論を行うことが求められ、メモリ化を緩和し、一般化を改善するための単純な検証可能な報酬信号を提供する。
5つの標準きめ細かいデータセット実験により,本手法が既存手法より大幅に優れていることが示された。
標準ベース・ツー・ノーベルの一般化設定では、DiVE-k は QWEN2.5-VL-7B と ViRFT をそれぞれ 10.04% と 6.16% で上回っている。
さらなる実験では、混合ドメインと少数ショットのシナリオでも同様の利得を示している。
関連論文リスト
- DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - Visual Programmability: A Guide for Code-as-Thought in Chart Understanding [37.44645754630439]
検証可能なシンボリックフォーマットでチャートの視覚情報を表現するためのCode-as-Thought(CaT)アプローチを提案する。
ビジュアルプログラマビリティ(Visual Programmability)は、チャート検索ペアがコードや直接視覚分析でよりよく解けるかどうかを判断する学習可能なプロパティである。
我々はこの概念を,視覚言語モデル(VLM)がCaT経路と直接視覚推論経路のどちらを選択するかを学習する適応的なフレームワークで実装する。
論文 参考訳(メタデータ) (2025-09-11T09:22:16Z) - OTFusion: Bridging Vision-only and Vision-Language Models via Optimal Transport for Transductive Zero-Shot Learning [5.818420448447699]
OTFusionは、視覚情報と意味情報を整合した共有確率表現を学ぶことを目的としている。
OTFusionはオリジナルのCLIPモデルよりも一貫して優れており、平均精度は10%近く向上している。
論文 参考訳(メタデータ) (2025-06-16T17:27:47Z) - Prefilled responses enhance zero-shot detection of AI-generated images [2.6581858762749997]
我々は、AI生成画像のゼロショット検出のために、事前訓練された視覚言語モデル(VLM)を探索する。
人間の顔,物体,動物の合成画像を含む3つのベンチマークを用いて,VLMの性能を評価する。
特に「スタイルと合成アーティファクトを調べよう」というタスク対応のフレーズでVLM応答をプリフィルすると、3つの広く使われているオープンソースVLMのマクロF1スコアが最大24%向上する。
論文 参考訳(メタデータ) (2025-05-20T22:44:04Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Bayesian Cross-Modal Alignment Learning for Few-Shot Out-of-Distribution Generalization [47.64583975469164]
本稿では,この問題に対処するために,新しいクロスモーダルな画像テキストアライメント学習手法(Bayes-CAL)を提案する。
Bayes-CALは2次元分布シフトにおける最先端のOoD一般化性能を達成する。
CLIPのようなモデルと比較して、Bayes-CALは目に見えないクラスでより安定した一般化性能を得る。
論文 参考訳(メタデータ) (2025-04-13T06:13:37Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。