論文の概要: EVE: Verifiable Self-Evolution of MLLMs via Executable Visual Transformations
- arxiv url: http://arxiv.org/abs/2604.18320v1
- Date: Mon, 20 Apr 2026 14:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.932924
- Title: EVE: Verifiable Self-Evolution of MLLMs via Executable Visual Transformations
- Title(参考訳): EVE:実行可能ビジュアルトランスフォーメーションによるMLLMの自己進化の検証
- Authors: Yongrui Heng, Chaoya Jiang, Han Yang, Shikun Zhang, Wei Ye,
- Abstract要約: EVE(Executable Visual Transformation-based self-Evolution)は,実行可能なビジュアルトランスフォーメーションを活用することで,擬似ラベルを完全に回避する新しいフレームワークである。
EVEは既存の自己進化手法を一貫して超越し、MLLMの自己進化を検証するための堅牢でスケーラブルなパラダイムを確立している。
- 参考スコア(独自算出の注目度): 34.761579091691125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-evolution of multimodal large language models (MLLMs) remains a critical challenge: pseudo-label-based methods suffer from progressive quality degradation as model predictions drift, while template-based methods are confined to a static set of transformations that cannot adapt in difficulty or diversity. We contend that robust, continuous self-improvement requires not only deterministic external feedback independent of the model's internal certainty, but also a mechanism to perpetually diversify the training distribution. To this end, we introduce EVE (Executable Visual transformation-based self-Evolution), a novel framework that entirely bypasses pseudo-labels by harnessing executable visual transformations continuously enriched in both variety and complexity. EVE adopts a Challenger-Solver dual-policy architecture. The Challenger maintains and progressively expands a queue of visual transformation code examples, from which it synthesizes novel Python scripts to perform dynamic visual transformations. Executing these scripts yields VQA problems with absolute, execution-verified ground-truth answers, eliminating any reliance on model-generated supervision. A multi-dimensional reward system integrating semantic diversity and dynamic difficulty calibration steers the Challenger to enrich its code example queue while posing progressively more challenging tasks, preventing mode collapse and fostering reciprocal co-evolution between the two policies. Extensive experiments demonstrate that EVE consistently surpasses existing self-evolution methods, establishing a robust and scalable paradigm for verifiable MLLM self-evolution. The code is available at https://github.com/0001Henry/EVE .
- Abstract(参考訳): 擬似ラベルベースの手法は、モデル予測がドリフトするにつれて、段階的な品質劣化に悩まされる一方、テンプレートベースの手法は、困難や多様性に適応できない静的な変換セットに限られる。
我々は、頑健で継続的な自己改善には、モデルの内部的確実性に依存しない決定論的外部フィードバックだけでなく、トレーニング分布を永久に多様化させるメカニズムも必要であると主張している。
この目的のためにEVE(Executable Visual Transformation-based Self-Evolution)という,多様かつ複雑に連続的に濃縮された実行可能な視覚変換を活用することによって,擬似ラベルを完全に回避する新しいフレームワークを紹介した。
EVEはチャレンジャー・ソルバーの二重政治アーキテクチャを採用している。
Challengerはビジュアルトランスフォーメーションコードのキューを維持し、徐々に拡張し、新しいPythonスクリプトを合成して動的ビジュアルトランスフォーメーションを実行する。
これらのスクリプトを実行すると、VQAの絶対的で、実行検証された基盤真実の回答が得られ、モデル生成の監視への依存がなくなる。
セマンティック多様性と動的難易度キャリブレーションを統合した多次元報酬システムにより、チャレンジャーはコードのサンプルキューを強化し、徐々に困難なタスクをこなし、モード崩壊を防止し、2つのポリシー間の相互共進化を促進する。
大規模な実験により、EVEは既存の自己進化手法を一貫して超越し、MLLM自己進化を検証するための堅牢でスケーラブルなパラダイムを確立した。
コードはhttps://github.com/0001Henry/EVE で公開されている。
関連論文リスト
- IdGlow: Dynamic Identity Modulation for Multi-Subject Generation [23.20674988897558]
We present IdGlow, a mask-free, progressive two-stage framework built on Flow Matching diffusion model。
教師付き微調整(SFT)の段階では、拡散生成力学に対応するタスク適応型時間ステップスケジューリングを導入する。
第2段階では,マルチオブジェクトアーティファクトを同時に除去するために,重み付きマージンの定式化を施したファイングラインド・グループレベル直接選好最適化(DPO)を設計する。
論文 参考訳(メタデータ) (2026-02-28T11:56:34Z) - DeltaEvolve: Accelerating Scientific Discovery through Momentum-Driven Evolution [28.737322041874293]
LLM駆動の進化系は、自動科学発見の可能性を証明している。
AlphaEvolveのような既存のアプローチは、文脈非効率なフルコード履歴に依存している。
本稿では,完全なコード履歴を構造化セマンティックデルタに置き換える運動量駆動型進化的フレームワークDeltaEvolveを提案する。
論文 参考訳(メタデータ) (2026-02-02T23:47:54Z) - Controlled Self-Evolution for Algorithmic Code Optimization [33.82967000330864]
自己進化的手法は、反復的な"生成-検証-精細"サイクルを通じてコード生成を強化する。
既存のアプローチでは、限られた予算内で優れた複雑さを持つソリューションを見つけることができません。
本稿では3つのキーコンポーネントからなる制御自己進化(CSE)を提案する。
論文 参考訳(メタデータ) (2026-01-12T09:23:13Z) - STAR: STacked AutoRegressive Scheme for Unified Multimodal Learning [37.68078190711403]
STAR:STacked AutoRegressive scheme for task-progressive unified multimodal learning。
このアプローチはマルチモーダル学習を理解、生成、編集という複数の段階に分解する。
実験により、STARがGenEval(0.91)、DPG-Bench(87.44)、ImgEdit(4.34)の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2025-12-15T07:02:59Z) - VITA: Vision-to-Action Flow Matching Policy [27.783132918359545]
VITAはノイズフリーで条件なしのポリシー学習フレームワークである。
フローマッチングを使って視覚表現を潜在アクションにマッピングする。
ALOHAとRoomimicの8つのシミュレーションと2つの実世界のタスクについて評価した。
論文 参考訳(メタデータ) (2025-07-17T15:41:57Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。