論文の概要: Endogenous Reprompting: Self-Evolving Cognitive Alignment for Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2601.20305v1
- Date: Wed, 28 Jan 2026 06:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.80489
- Title: Endogenous Reprompting: Self-Evolving Cognitive Alignment for Unified Multimodal Models
- Title(参考訳): 内因性リプロンプト:統合型マルチモーダルモデルにおける自己発達型認知アライメント
- Authors: Zhenchen Tang, Songlin Yang, Zichuan Wang, Bo Peng, Yang Li, Beibei Dong, Jing Dong,
- Abstract要約: 内因性再増殖は、モデルの理解を明確な生成的推論ステップに変換する。
評価精度,再現効率,生成品質において,SEERは一貫して最先端のベースラインを上回っていることを示す。
- 参考スコア(独自算出の注目度): 23.128973540926552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified Multimodal Models (UMMs) exhibit strong understanding, yet this capability often fails to effectively guide generation. We identify this as a Cognitive Gap: the model lacks the understanding of how to enhance its own generation process. To bridge this gap, we propose Endogenous Reprompting, a mechanism that transforms the model's understanding from a passive encoding process into an explicit generative reasoning step by generating self-aligned descriptors during generation. To achieve this, we introduce SEER (Self-Evolving Evaluator and Reprompter), a training framework that establishes a two-stage endogenous loop using only 300 samples from a compact proxy task, Visual Instruction Elaboration. First, Reinforcement Learning with Verifiable Rewards (RLVR) activates the model's latent evaluation ability via curriculum learning, producing a high-fidelity endogenous reward signal. Second, Reinforcement Learning with Model-rewarded Thinking (RLMT) leverages this signal to optimize the generative reasoning policy. Experiments show that SEER consistently outperforms state-of-the-art baselines in evaluation accuracy, reprompting efficiency, and generation quality, without sacrificing general multimodal capabilities.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は強い理解を示すが、この能力は生成を効果的に導くのに失敗することが多い。
モデルには、独自の生成プロセスの強化方法の理解が欠けているのです。
このギャップを埋めるため, 自己整合記述子を生成中に生成することにより, モデル理解を受動的符号化プロセスから明示的な生成的推論ステップに変換する機構である内因性再帰(endogenous Reprompting)を提案する。
これを実現するために、コンパクトなプロキシタスクであるVisual Instruction Elaborationからわずか300個のサンプルを使用して、2段階の内因性ループを確立するトレーニングフレームワークSEER(Self-Evolving Evaluator and Reprompter)を紹介した。
RLVR(Reinforcement Learning with Verifiable Rewards)は、カリキュラム学習を通じてモデルの潜伏評価能力を活性化し、高忠実な内因性報酬信号を生成する。
第二に、RLMT(Reinforcement Learning with Model-Rewarded Thinking)は、この信号を利用して生成的推論ポリシーを最適化する。
実験により、SEERは、一般的なマルチモーダル能力を犠牲にすることなく、評価精度、再試行効率、生成品質において、常に最先端のベースラインを上回っていることが示された。
関連論文リスト
- STAR: STacked AutoRegressive Scheme for Unified Multimodal Learning [37.68078190711403]
STAR:STacked AutoRegressive scheme for task-progressive unified multimodal learning。
このアプローチはマルチモーダル学習を理解、生成、編集という複数の段階に分解する。
実験により、STARがGenEval(0.91)、DPG-Bench(87.44)、ImgEdit(4.34)の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2025-12-15T07:02:59Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - SUDER: Self-Improving Unified Large Multimodal Models for Understanding and Generation with Dual Self-Rewards [55.99492656542475]
textbfSDER (textbfSelf-improving textbfUnified LMMs with textbfDual stextbfElf-textbfRewards) を提案する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition [13.593511876719367]
教師なし表現学習のための新しい骨格ベース等等化生成モデル(IGM)を提案する。
ベンチマークデータセットであるNTU RGB+DとPKUMMDに関する実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-27T06:29:04Z) - A Unified Contrastive Energy-based Model for Understanding the
Generative Ability of Adversarial Training [64.71254710803368]
Adversarial Training (AT) は、ディープニューラルネットワークの堅牢性を高める効果的なアプローチである。
我々は、Contrastive Energy-based Models(CEM)と呼ばれる統合確率的枠組みを開発することにより、この現象をデミステレーションする。
本稿では,逆学習法とサンプリング法を開発するための原則的手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。