論文の概要: Learning What Matters: Dynamic Dimension Selection and Aggregation for Interpretable Vision-Language Reward Modeling
- arxiv url: http://arxiv.org/abs/2604.05445v1
- Date: Tue, 07 Apr 2026 05:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.639491
- Title: Learning What Matters: Dynamic Dimension Selection and Aggregation for Interpretable Vision-Language Reward Modeling
- Title(参考訳): 何が重要なのかを学習する:動的次元選択と理解可能な視線ランゲージ・リワードモデリングのための集約
- Authors: Qiyuan Chen, Hongsen Huang, Jiahe Chen, Qian Shao, Jintai Chen, Hongxia Xu, Renjie Hua, Chuan Ren, Jian Wu,
- Abstract要約: VL-MDR(Vision-Language Multi-dimensional Reward)は、評価を粒度、解釈可能な次元に分解するフレームワークである。
これをサポートするために、21のきめ細かい次元にアノテートされた321kの視覚言語嗜好ペアのデータセットをキュレートする。
- 参考スコア(独自算出の注目度): 14.249938992666202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language reward modeling faces a dilemma: generative approaches are interpretable but slow, while discriminative ones are efficient but act as opaque "black boxes." To bridge this gap, we propose VL-MDR (Vision-Language Multi-Dimensional Reward), a framework that dynamically decomposes evaluation into granular, interpretable dimensions. Instead of outputting a monolithic scalar, VL-MDR employs a visual-aware gating mechanism to identify relevant dimensions and adaptively weight them (e.g., Hallucination, Reasoning) for each specific input. To support this, we curate a dataset of 321k vision-language preference pairs annotated across 21 fine-grained dimensions. Extensive experiments show that VL-MDR consistently outperforms existing open-source reward models on benchmarks like VL-RewardBench. Furthermore, we show that VL-MDR-constructed preference pairs effectively enable DPO alignment to mitigate visual hallucinations and improve reliability, providing a scalable solution for VLM alignment.
- Abstract(参考訳): 生成的アプローチは解釈可能であるが遅いが、識別的アプローチは効率的であるが、不透明な「ブラックボックス」として機能する。
このギャップを埋めるために、動的に評価を粒度、解釈可能な次元に分解するVL-MDR(Vision-Language Multi-dimensional Reward)を提案する。
モノリシックなスカラーを出力する代わりに、VL-MDRは視覚的なゲーティング機構を使用して、関連する次元を特定し、それぞれの入力に対して適応的にそれらを重み付けする(例えば、幻覚、推論)。
これをサポートするために、21のきめ細かい次元にアノテートされた321kの視覚言語嗜好ペアのデータセットをキュレートする。
大規模な実験により、VL-MDRはVL-RewardBenchのようなベンチマークで既存のオープンソース報酬モデルより一貫して優れていることが示された。
さらに、VL-MDR構成された嗜好ペアは、視覚幻覚を緩和し、信頼性を向上させるためにDPOアライメントを効果的に実現し、VLMアライメントのためのスケーラブルなソリューションを提供することを示す。
関連論文リスト
- MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - FRISM: Fine-Grained Reasoning Injection via Subspace-Level Model Merging for Vision-Language Models [20.47311573790516]
FRISM(Fine-fine Reasoning Injection via Subspace-level Model Merging)を提案する。
実験により、FRISMはモデルの本来の視覚能力を損なうことなく推論能力を効果的に改善することが示された。
論文 参考訳(メタデータ) (2026-01-29T02:36:19Z) - Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision [79.06371915084833]
本稿では,VLUAS(Vision-Language Unified Autoregressive Supervision)パラダイムを活用するフレームワークであるYoutu-VLを紹介する。
Youtu-VLは視覚的詳細と言語的内容の両方に統一的な自己回帰的監督を適用している。
我々は、このパラダイムを視覚中心のタスクに拡張し、標準のVLMがタスク固有の追加なしで視覚中心のタスクを実行できるようにした。
論文 参考訳(メタデータ) (2026-01-27T17:01:16Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - Dual-Stage Value-Guided Inference with Margin-Based Reward Adjustment for Fast and Faithful VLM Captioning [23.851747078717473]
We introduced textbfValue-guided Inference with Margin-based Reward (ViMaR), a two-stage inference framework that improves efficiency and output fidelity。
ViMaRは、より信頼性が高く、事実的正確で、詳細で、解説的なキャプションを生成し、しかも4$times$ Speedupを達成している。
論文 参考訳(メタデータ) (2025-06-18T17:23:36Z) - Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [40.77611907215627]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。