論文の概要: DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2505.24025v1
- Date: Thu, 29 May 2025 21:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.677272
- Title: DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models
- Title(参考訳): DINO-R1:ビジョンファウンデーションモデルにおける推論能力のインセンティブ
- Authors: Chenbin Pan, Wenbin He, Zhengzhong Tu, Liu Ren,
- Abstract要約: 視覚基盤モデルのコンテキスト内推論能力をインセンティブ化する最初の試みであるtextbfDINO-R1 を提案する。
DINO-R1は、新しい強化スタイルのトレーニング戦略である textbfGroup Relative Query Optimization (GRQO) を導入した。
COCO、LVIS、ODinWの実験により、DINO-R1は制御された微調整ベースラインを著しく上回ることが示された。
- 参考スコア(独自算出の注目度): 18.06361678575107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent explosive interest in the reasoning capabilities of large language models, such as DeepSeek-R1, has demonstrated remarkable success through reinforcement learning-based fine-tuning frameworks, exemplified by methods like Group Relative Policy Optimization (GRPO). However, such reasoning abilities remain underexplored and notably absent in vision foundation models, including representation models like the DINO series. In this work, we propose \textbf{DINO-R1}, the first such attempt to incentivize visual in-context reasoning capabilities of vision foundation models using reinforcement learning. Specifically, DINO-R1 introduces \textbf{Group Relative Query Optimization (GRQO)}, a novel reinforcement-style training strategy explicitly designed for query-based representation models, which computes query-level rewards based on group-normalized alignment quality. We also apply KL-regularization to stabilize the objectness distribution to reduce the training instability. This joint optimization enables dense and expressive supervision across queries while mitigating overfitting and distributional drift. Building upon Grounding-DINO, we train a series of DINO-R1 family models that integrate a visual prompt encoder and a visual-guided query selection mechanism. Extensive experiments on COCO, LVIS, and ODinW demonstrate that DINO-R1 significantly outperforms supervised fine-tuning baselines, achieving strong generalization in both open-vocabulary and closed-set visual prompting scenarios.
- Abstract(参考訳): 近年のDeepSeek-R1のような大規模言語モデルの推論能力に対する爆発的な関心は、グループ相対ポリシー最適化(GRPO)のような手法で実証された強化学習に基づく微調整フレームワークを通じて顕著な成功を収めている。
しかしながら、そのような推論能力は、DINOシリーズのような表現モデルを含むビジョン基盤モデルでは、まだ未熟であり、特に欠落している。
本研究では、強化学習を用いた視覚基盤モデルの視覚的文脈推論能力をインセンティブ化するための最初の試みである「textbf{DINO-R1}」を提案する。
具体的には、DINO-R1では、グループ正規化されたアライメント品質に基づいてクエリレベルの報酬を計算するクエリベースの表現モデル用に明示的に設計された、新しい強化スタイルのトレーニング戦略である、‘textbf{Group Relative Query Optimization(GRQO)’を導入している。
また, KL-正則化を適用し, 物体の安定性を安定させ, トレーニング不安定性を低減する。
この共同最適化は、オーバーフィッティングと分散ドリフトを緩和しながら、クエリ間の密集的で表現力のある監視を可能にする。
Grounding-DINOに基づいて、視覚プロンプトエンコーダと視覚誘導クエリ選択機構を統合した一連のDINO-R1ファミリーモデルを訓練する。
COCO、LVIS、ODinWの大規模な実験により、DINO-R1は微調整ベースラインを著しく上回り、オープンボキャブラリとクローズドセットの両方の視覚的プロンプトのシナリオにおいて強力な一般化が達成された。
関連論文リスト
- ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL [54.100889131719626]
連鎖推論と強化学習がNLPの突破口となった。
我々はReasonGen-R1を紹介した。ReasonGen-R1は自動回帰画像生成器に明示的なテキストベースの「思考」スキルを付与するフレームワークである。
ReasonGen-R1は、強いベースラインや先行技術モデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:59:48Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
LARESは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws [52.10468229008941]
本稿では,戦略データの選択や重み付けを通じて,対象モデルのトレーニングを指導・強化するための基準として,訓練モデルを用いた新たな学習パラダイムを定式化する。
提案手法は,参照モデルを持たないトレーニングと比較して,一般化とデータの効率性を改善する理由に関する理論的知見を提供する。
これらの知見に基づいて,DRRho-CLIPと呼ばれる参照モデルを用いたコントラスト言語-画像事前学習手法を提案する。
論文 参考訳(メタデータ) (2025-05-10T16:55:03Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning [26.14137626882127]
LVLM(Large Vision-Language Models)は通常、2段階の訓練パラダイムの事前訓練と教師付き微調整を行う。
言語領域から派生した嗜好最適化は,学習後強化戦略として有効である。
本稿では,LVLMのための新しい視覚誘導型R1様強化学習アルゴリズムであるVision-R1を提案する。
論文 参考訳(メタデータ) (2025-03-23T10:21:14Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Structured Tuning for Semantic Role Labeling [38.66432166217337]
最近のニューラルネットワークによるセマンティックロールラベリングシステムでは、F1スコアが著しく改善されている。
本稿では,訓練時にのみ軟化制約を用いたモデル改善のための構造化チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-01T17:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。