論文の概要: Turning Internal Gap into Self-Improvement: Promoting the Generation-Understanding Unification in MLLMs
- arxiv url: http://arxiv.org/abs/2507.16663v2
- Date: Thu, 25 Sep 2025 11:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:55.966152
- Title: Turning Internal Gap into Self-Improvement: Promoting the Generation-Understanding Unification in MLLMs
- Title(参考訳): 内部ギャップを自己改善に変える--MLLMにおける世代統合の促進
- Authors: Yujin Han, Hao Chen, Andi Han, Zhiheng Wang, Xinyu Liu, Yingya Zhang, Shiwei Zhang, Difan Zou,
- Abstract要約: MLLMの統一化は、優れた生成の理解と内部的なギャップを生じさせることを示す。
この発見は、シンプルだが効果的な内部ギャップに基づく自己改善フレームワークを提案する動機となっている。
プレトレーニングでよく知られるが,ポストトレーニングでは過小評価されている,このような自己改善の併用効果を実証的に発見する。
- 参考スコア(独自算出の注目度): 46.43090277452948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although unified MLLMs aim to unify generation and understanding, they are considered to exhibit an internal gap, with understanding outperforming generation. Through large-scale evaluation across multiple MLLMs and tasks, we confirm the widespread non-unification of MLLMs, and demonstrate that it indeed stems from weak generation rather than misunderstanding. This finding motivates us to propose a simple yet effective internal gap-based self-improvement framework, which mitigates internal gaps by leveraging stronger understanding to guide weaker generation without relying on any external signals. We validate this strategy through comprehensive experiments: scoring generations with understanding to construct image data for post-training (e.g., SFT and DPO) significantly improves generation while promoting unification. Furthermore, we empirically discover a co-improvement effect of such self-improvement, a phenomenon well known in pre-training but underexplored in post-training. Specifically, as generation improves, understanding becomes more effective at detecting false positives that were previously misclassified as prompt-aligned. To explain this effect, we extend learning dynamic theory to the MLLM setting, showing that the shared empirical neural tangent kernel between generation and understanding encourages aligned learning dynamics, thereby driving co-improvement. This interplay between generation and understanding further motivates a curriculum learning approach for stronger self-improvement: progressively enhanced understanding and generation revisit samples underutilized by pre-trained MLLMs, dynamically expanding post-training data and leading to improved performance and unification.
- Abstract(参考訳): 統合MLLMは、生成と理解を統一することを目的としているが、より優れた生成を理解することで、内部的なギャップを示すと考えられる。
複数のMLLMおよびタスクにわたる大規模評価を通じて、MLLMの非統一性を確認し、誤解ではなく、実際に弱い生成に起因していることを示す。
この発見は、より強力な理解を活用して、外部信号に頼ることなく、より弱い世代を導くことにより、内部ギャップを緩和する、シンプルで効果的な内部ギャップに基づく自己改善フレームワークを提案する動機付けとなる。
学習後の画像データ(例えば、SFT、DPO)の構築は、統合を推進しながら生成を著しく改善する。
さらに, プレトレーニングでよく知られるが, ポストトレーニングでは過小評価されている現象である, このような自己改善の併用効果を実証的に発見する。
特に、生成が向上するにつれて、以前はプロンプトアライメントと誤分類されていた偽陽性の検出において、理解がより効果的になる。
この効果を説明するために、我々は学習力学理論をMLLM設定に拡張し、生成と理解の間の共有経験的ニューラルネットワークカーネルが協調学習力学を促進し、共同改善を促進することを示す。
この生成と理解の間の相互作用は、より強力な自己改善のためのカリキュラム学習アプローチをさらに動機付けている: 事前学習されたMLLMによって未使用の理解と生成の再検討サンプルを徐々に強化し、訓練後のデータを動的に拡張し、パフォーマンスと統一性を向上させる。
関連論文リスト
- Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Incentivizing Truthful Language Models via Peer Elicitation Games [10.530016288072506]
大きな言語モデル(LLM)は強力な生成能力を示しているが、矛盾や幻覚の傾向が強い。
我々は,異なるベースモデルからインスタンス化されたジェネレータと複数の識別器を含むピア・エリケーション機構を通じて,LPMを整列させる学習自由ゲーム理論フレームワークであるPeer Elicitation Games (PEG)を紹介した。
論文 参考訳(メタデータ) (2025-05-19T18:16:58Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - Unpacking the Resilience of SNLI Contradiction Examples to Attacks [0.38366697175402226]
我々は,モデルの脆弱性を調べるためにユニバーサル・アドバイサル・アタックを適用した。
分析の結果,含意クラスと中性クラスの精度は著しく低下した。
逆例のある拡張データセット上でモデルを微調整することで、その性能はほぼベースラインレベルに回復した。
論文 参考訳(メタデータ) (2024-12-15T12:47:28Z) - Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。
本稿では,自己改善のための数学的定式化について述べる。
また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文 参考訳(メタデータ) (2024-12-03T18:47:26Z) - Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
拡散モデルは、回帰を通じてスコア関数を訓練することだけを必要とするGANの非敵対的な代替品として登場した。
提案手法は, GANスタイルの模倣学習ベースラインと差別化なし模倣学習ベースラインの両方を, 連続制御問題に比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept [36.27550578296276]
大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。
内在的な自己補正は、様々な応用で明らかであるが、それが有効である理由や理由は不明である。
内在的な自己補正は徐々に改善され、収束状態に近づくことができることを示す。
論文 参考訳(メタデータ) (2024-06-04T14:55:43Z) - A Simple Contrastive Learning Objective for Alleviating Neural Text
Degeneration [56.64703901898937]
本稿では,クロスエントロピーと異種訓練の利点を継承する,新しい対照的なトークン学習目標を提案する。
言語モデリングとオープンドメイン対話生成タスクに関する総合的な実験は、提案したコントラストトークンの目的がより繰り返しの少ないテキストを生成することを示す。
論文 参考訳(メタデータ) (2022-05-05T08:50:50Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - Improving Self-supervised Learning with Automated Unsupervised Outlier
Arbitration [83.29856873525674]
本稿では,自己教師型学習のためのビューサンプリング問題を対象とした,軽量潜在変数モデル UOTA を提案する。
本手法は,多くの主流な自己指導型学習手法に直接応用する。
論文 参考訳(メタデータ) (2021-12-15T14:05:23Z) - Solving Inefficiency of Self-supervised Representation Learning [87.30876679780532]
既存のコントラスト学習法は、非常に低い学習効率に苦しむ。
アンダークラスタリングとオーバークラスタリングの問題は、学習効率の大きな障害である。
中央三重項損失を用いた新しい自己監督学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-18T07:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。