論文の概要: Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2512.06835v1
- Date: Sun, 07 Dec 2025 13:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.545066
- Title: Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning
- Title(参考訳): 一般化のためのデデュプル:データ・スカース・ビジョン・ランゲージ推論のためのコンテキストファーストな自己進化学習
- Authors: Tingyu Li, Zheng Sun, Jingxuan Wei, Siyuan Li, Conghui He, Lijun Wu, Cheng Tan,
- Abstract要約: 最近の視覚言語モデル(VLM)は強化学習(RL)を通して顕著な推論を実現する
RLは、経験の時代に連続的に進化する大規模視覚言語モデル(LVLM)を実現するための実現可能なソリューションを提供する。
合成データや自己回帰機構といった既存の戦略は、限られた分布とアライメントの困難に悩まされている。
問題解決ではなく,まず文脈から学習するようにモデルに誘導する,二重分離フレームワークDoGeを提案する。
- 参考スコア(独自算出の注目度): 41.523848964102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision-language models (VLMs) achieve remarkable reasoning through reinforcement learning (RL), which provides a feasible solution for realizing continuous self-evolving large vision-language models (LVLMs) in the era of experience. However, RL for VLMs requires abundant high-quality multimodal data, especially challenging in specialized domains like chemistry, earth sciences, and multimodal mathematics. Existing strategies such as synthetic data and self-rewarding mechanisms suffer from limited distributions and alignment difficulties, ultimately causing reward hacking: models exploit high-reward patterns, collapsing policy entropy and destabilizing training. We propose DoGe (Decouple to Generalize), a dual-decoupling framework that guides models to first learn from context rather than problem solving by refocusing on the problem context scenarios overlooked by synthetic data methods. By decoupling learning process into dual components (Thinker and Solver), we reasonably quantify the reward signals of this process and propose a two-stage RL post-training approach from freely exploring context to practically solving tasks. Second, to increase the diversity of training data, DoGe constructs an evolving curriculum learning pipeline: an expanded native domain knowledge corpus and an iteratively evolving seed problems pool. Experiments show that our method consistently outperforms the baseline across various benchmarks, providing a scalable pathway for realizing self-evolving LVLMs.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)は、経験の時代に連続的な自己進化型大規模視覚言語モデル(LVLM)を実現するための実現可能なソリューションである強化学習(RL)を通じて、顕著な推論を実現している。
しかしながら、VLMのRLは豊富な高品質なマルチモーダルデータを必要とし、特に化学、地球科学、マルチモーダル数学のような専門分野では困難である。
合成データや自己回帰機構といった既存の戦略は、限られた分布とアライメントの困難に悩まされ、最終的に報酬のハッキングを引き起こします。
合成データ手法で見落としている問題コンテキストのシナリオを再考することによって、問題を解決するよりも、まずモデルにコンテキストから学習するように誘導する二重分離フレームワークであるDoGe(Decouple to Generalize)を提案する。
学習プロセスを2つのコンポーネント(ThinkerとSolver)に分解することで、このプロセスの報酬信号を合理的に定量化し、文脈を自由に探索する2段階のRLポストトレーニングアプローチを提案する。
次に、トレーニングデータの多様性を高めるために、DoGeは進化を続けるカリキュラム学習パイプラインを構築する。
実験結果から,本手法は様々なベンチマークにおいて常にベースラインを上回り,自己進化型LVLMを実現するためのスケーラブルな経路を提供することがわかった。
関連論文リスト
- Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning [17.459985667824807]
DeepSeek-R1のようなテキストベースの推論モデルの成功に基づいて、これらの機能をマルチモーダル推論に拡張することは大きな約束である。
本稿では,強化学習を通じて汎用的な視覚言語推論を実現する方法について述べる。
論文 参考訳(メタデータ) (2025-06-09T16:20:54Z) - mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation [15.991125806837386]
LVLM(Large Vision-Language Models)は、視覚的質問応答、視覚的接地、複雑な推論といったマルチモーダルなタスクにおいて顕著な進歩を遂げている。
Retrieval-Augmented Generation (RAG)は、LVLMが検索機構を介して大規模知識データベースにアクセスできるようにすることにより、これらの課題を軽減するための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-29T23:32:03Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。