論文の概要: Unified Reinforcement and Imitation Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.19307v1
- Date: Wed, 22 Oct 2025 07:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.23674
- Title: Unified Reinforcement and Imitation Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための統一強化と模倣学習
- Authors: Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu,
- Abstract要約: VLM(Vision-Language Models)は目覚ましい進歩を遂げているが、その大規模化によって資源制約のある環境では実用的でないことがしばしばある。
本稿では、強力で軽量なVLMを作成するために設計された、新規で効率的なトレーニングアルゴリズムであるUnified Reinforcement and Imitation Learning (RIL)を紹介する。
- 参考スコア(独自算出の注目度): 84.84277196012907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have achieved remarkable progress, yet their large scale often renders them impractical for resource-constrained environments. This paper introduces Unified Reinforcement and Imitation Learning (RIL), a novel and efficient training algorithm designed to create powerful, lightweight VLMs. RIL distinctively combines the strengths of reinforcement learning with adversarial imitation learning. This enables smaller student VLMs not only to mimic the sophisticated text generation of large teacher models but also to systematically improve their generative capabilities through reinforcement signals. Key to our imitation framework is an LLM-based discriminator that adeptly distinguishes between student and teacher outputs, complemented by guidance from multiple large teacher VLMs to ensure diverse learning. This unified learning strategy, leveraging both reinforcement and imitation, empowers student models to achieve significant performance gains, making them competitive with leading closed-source VLMs. Extensive experiments on diverse vision-language benchmarks demonstrate that RIL significantly narrows the performance gap with state-of-the-art open- and closed-source VLMs and, in several instances, surpasses them.
- Abstract(参考訳): VLM(Vision-Language Models)は目覚ましい進歩を遂げているが、その大規模化によって資源制約のある環境では実用的でないことがしばしばある。
本稿では、強力で軽量なVLMを作成するために設計された、新規で効率的なトレーニングアルゴリズムであるUnified Reinforcement and Imitation Learning (RIL)を紹介する。
RILは、強化学習の強みと敵対的模倣学習とを顕著に組み合わせている。
これにより、小学生のVLMは、大規模な教師モデルの洗練されたテキスト生成を模倣するだけでなく、強化信号を通じて、その生成能力を体系的に改善することができる。
我々の模倣フレームワークの鍵となるのは、学生と教師のアウトプットを徹底的に区別するLLMベースの差別化であり、多様な学習を確保するために、複数の大きな教師VLMからの指導によって補完される。
この統合学習戦略は、強化と模倣の両方を活用することで、学生モデルに大きなパフォーマンス向上を達成し、主要なクローズドソースVLMと競合する。
多様なヴィジュアル言語ベンチマークに関する広範な実験により、RILは最先端のオープンソースVLMとクローズドソースVLMのパフォーマンスギャップを著しく狭め、いくつかのケースではそれらを上回っていることが示された。
関連論文リスト
- Igniting Creative Writing in Small Language Models: LLM-as-a-Judge versus Multi-Agent Refined Rewards [33.911792632604424]
本稿では、AIフィードバックフレームワークからの強化学習における2つのAI駆動報酬戦略について検討する。
最初の戦略は、新しいマルチエージェント・リジェクション・サンプリング・フレームワークによって算出された高品質な嗜好データに基づいて訓練されたRMを用いる。
第2の戦略は原則誘導型LPM-as-a-Judgeを利用しており、その報酬関数は敵の訓練スキームによって最適化される。
論文 参考訳(メタデータ) (2025-08-29T10:00:55Z) - A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models [103.88578274567784]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模共振モデルの強化微調整を強化する直感的かつ効果的な方法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識するためのコンテキスト内モチベーションとして機能する。
MeRFはRLVRベースラインよりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning [12.728451197053321]
小型視覚言語モデル(VLM)に特化して設計された新しいポストトレーニングパラダイムであるCurr-ReFT(Curr-ReFT)を提案する。
Curr-ReFTは、カリキュラム強化学習(Curriculum Reinforcement Learning)とRejected Smplingベースの自己改善(Rejected Smpling-based Self-improvement)の2段階からなる。
実験により,Curr-ReFTパラダイムで訓練したモデルが,様々な視覚的タスクにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-10T08:48:50Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。