論文の概要: RISE: Reliable Improvement in Self-Evolving Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.20914v2
- Date: Tue, 26 May 2026 05:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.868263
- Title: RISE: Reliable Improvement in Self-Evolving Vision-Language Models
- Title(参考訳): RISE: 自己進化型ビジョンランゲージモデルの信頼性向上
- Authors: Chaoran Xu, Yingmao Miao, Pengfei Zhang, Hao Dou, Lei Sun, Xiangxiang Chu,
- Abstract要約: 視覚言語モデル(VLM)は強力なマルチモーダル推論機能を実現している。
VLMは依然として、ポストトレーニングのための大規模な人為的な監督に大きく依存している。
視覚言語モデルのための信頼性の高い自己進化フレームワークである textbfRISE を提案する。
- 参考スコア(独自算出の注目度): 22.16641554921884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have achieved strong multimodal reasoning capabilities, but further improving them still relies heavily on large-scale human-constructed supervision for post-training. Such supervision is costly to obtain, especially for reasoning-intensive multimodal tasks where questions, answers, and feedback signals must be carefully designed. This motivates self-evolving learning, where a model improves itself through a dual-role closed loop: a questioner autonomously poses questions and a solver learns to solve them. However, we observe that current VLM self-evolving methods still face three major challenges: coarse-grained role alternation delays the interaction between question generation and solver adaptation; generated questions can progressively degrade in quality; and question types may collapse toward a narrow distribution. These issues limit the efficiency and reliability of self-evolution. Thus, we propose \textbf{RISE}, a reliable self-evolving framework for vision-language models. RISE is built on three complementary designs: fine-grained role alternation, which shortens the feedback loop between the questioner and the solver to improve efficiency; a quality supervisor, which improves question validity and pseudo-label reliability; and skill-aware dynamic balancing, which mitigates mode collapse and maintains broad skill coverage during evolution. Together, these components enable more reliable and effective self-evolution from unlabeled images. Experiments on two VLM backbones across seven benchmarks show that RISE consistently improves the base models, yielding broad and sustained gains. Our code is publicly available at https://github.com/AMAP-ML/RISE.
- Abstract(参考訳): 視覚言語モデル(VLM)は、強力なマルチモーダル推論機能を実現しているが、さらなる改善は、ポストトレーニングのための大規模な人体構成の監視に大きく依存している。
このような監督は、特に質問、回答、フィードバックの信号が慎重に設計されるような、推論集約的なマルチモーダルタスクにおいて、得られるのに費用がかかる。
これは自己進化的な学習を動機付け、モデルが双ロール閉ループを通じて自己改善する。
しかしながら,現在のVLM自己進化手法は,いまだに3つの大きな課題に直面している。大まかな役割交代は質問生成と解決者適応の相互作用を遅らせる;生成された質問は品質が徐々に低下し,質問タイプは狭い分布に向かって崩壊する。
これらの問題は、自己進化の効率性と信頼性を制限する。
そこで我々は、視覚言語モデルのための信頼性の高い自己進化フレームワークである「textbf{RISE}」を提案する。
RISEは、質問者と解決者の間のフィードバックループを短縮して効率を向上するきめ細かい役割変更、質問の妥当性と疑似ラベルの信頼性を向上させる品質スーパーバイザ、モード崩壊を緩和し、進化中に幅広いスキルカバレッジを維持するスキル認識動的バランスという3つの補完的な設計に基づいて構築されている。
これらのコンポーネントは、ラベルのない画像からより信頼性が高く効果的な自己進化を可能にする。
7つのベンチマークで2つのVLMバックボーンの実験により、RISEはベースモデルを一貫して改善し、広範かつ持続的なゲインをもたらすことが示された。
私たちのコードはhttps://github.com/AMAP-ML/RISEで公開されています。
関連論文リスト
- AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward [52.7128440950672]
我々はAlphaGRPOを提案し、追加のコールドスタートステージなしでマルチモーダル生成能力を向上する。
我々のアプローチは、高度な推論タスクを実行するためのモデルの本質的な可能性を解き放つ。
実世界のマルチモーダル世代を安定的に管理する上での課題に対処するために、DVReward(Decompositional Verifiable Reward)を導入する。
論文 参考訳(メタデータ) (2026-05-12T17:59:47Z) - OCR-Agent: Agentic OCR with Capability and Memory Reflection [5.8505408398110434]
VLM(Large Vision-Language Models)は、複雑な視覚理解タスクにおいて大きな可能性を証明している。
本稿では,機能的リフレクションとメモリリフレクションという2つの重要な機能を備えたモデルを実現する,新しい反復自己補正フレームワークを提案する。
挑戦的なOCRBench v2ベンチマークの実験によると、OCR-Agentは現在のオープンソースSOTAモデルであるInternVL3-8Bを英語で+2.0、中国語サブセットで+1.2で上回っている。
論文 参考訳(メタデータ) (2026-02-24T16:10:27Z) - Self-Play Only Evolves When Self-Synthetic Pipeline Ensures Learnable Information Gain [22.77669491242655]
大規模言語モデル(LLM)は、自己進化ループを通じて改善されるシステムを構築するのにもっとも適している。
持続可能な自己進化には、繰り返しにまたがる学習可能な情報を備えた自己合成データパイプラインが必要です。
論文 参考訳(メタデータ) (2026-02-10T08:12:09Z) - EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards [52.42920996842378]
本稿では,1つのバックボーンモデルから2つの協調エージェントをインスタンス化する自己進化型フレームワークEvoLMMを提案する。
この動的なフィードバックは、情報的クエリの生成と構造化推論の洗練の両方を促進する。
私たちのコードとモデルはhttps://github.com/mbzuai-oryx/EvoLMMで公開されています。
論文 参考訳(メタデータ) (2025-11-20T18:59:54Z) - VisPlay: Self-Evolving Vision-Language Models from Images [16.43670977857598]
強化学習(RL)は、複雑なタスクにおける視覚言語モデル(VLM)を改善するための原則的なフレームワークを提供する。
我々は、VLMが大量のラベルのない画像データを用いて推論能力を自律的に改善できる自己進化型RLフレームワークであるVisPlayを紹介した。
論文 参考訳(メタデータ) (2025-11-19T17:55:15Z) - Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing [70.35701681177655]
自己改善は、大きな視覚言語モデルの推論能力を向上するための主流パラダイムとして現れてきた。
本研究では,探索学習による自己改善プロセスにおいて,頭部再バランスを実現するための4つの効率的な戦略を提案する。
我々の手法は視覚的推論能力を常に改善し、バニラ自己改善を平均3.86ポイント上回る。
論文 参考訳(メタデータ) (2025-10-30T13:26:58Z) - SPELL: Self-Play Reinforcement Learning for evolving Long-Context Language Models [79.01078135582127]
SPELLは、長文推論のためのスケーラブルでラベルなしの最適化を可能にする。
本稿では、文書長を徐々に向上させる自動カリキュラムと、モデルの進化する機能に質問の難しさを適応させる報奨関数を導入する。
論文 参考訳(メタデータ) (2025-09-28T13:08:10Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。