論文の概要: Self-Contradiction as Self-Improvement: Mitigating the Generation-Understanding Gap in MLLMs
- arxiv url: http://arxiv.org/abs/2507.16663v1
- Date: Tue, 22 Jul 2025 14:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.165788
- Title: Self-Contradiction as Self-Improvement: Mitigating the Generation-Understanding Gap in MLLMs
- Title(参考訳): 自己改善としての自己矛盾--MLLMにおける世代不在ギャップの緩和-
- Authors: Yujin Han, Hao Chen, Andi Han, Zhiheng Wang, Xinyu Lin, Yingya Zhang, Shiwei Zhang, Difan Zou,
- Abstract要約: MLLMは、モデル自体の理解に基づいて、入力プロンプトと不一致とみなす画像を生成する自己コントラディションを示す。
私たちの経験的結果は、自己矛盾は主に誤解ではなく、プロンプトと一致しない弱い世代から生じます。
このような内部監督による標準的なポストトレーニング手法の適用は、生成と統一の両方をうまく改善する。
- 参考スコア(独自算出の注目度): 29.790632461930947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite efforts to unify multimodal generation and understanding tasks in a single model, we show these MLLMs exhibit self-contradiction where generation produces images deemed misaligned with input prompts based on the model's own understanding. We define a Nonunified score that quantifies such self-contradiction. Our empirical results reveal that the self-contradiction mainly arises from weak generation that fails to align with prompts, rather than misunderstanding. This capability asymmetry indicates the potential of leveraging self-contradiction for self-improvement, where the stronger model understanding guides the weaker generation to mitigate the generation-understanding gap. Applying standard post-training methods (e.g., SFT, DPO) with such internal supervision successfully improves both generation and unification. We discover a co-improvement effect on both generation and understanding when only fine-tuning the generation branch, a phenomenon known in pre-training but underexplored in post-training. Our analysis shows improvements stem from better detection of false positives that are previously incorrectly identified as prompt-aligned. Theoretically, we show the aligned training dynamics between generation and understanding allow reduced prompt-misaligned generations to also improve mismatch detection in the understanding branch. Additionally, the framework reveals a potential risk of co-degradation under poor supervision-an overlooked phenomenon that is empirically validated in our experiments. Notably, we find intrinsic metrics like Nonunified score cannot distinguish co-degradation from co-improvement, which highlights the necessity of data quality check. Finally, we propose a curriculum-based strategy based on our findings that gradually introduces harder samples as the model improves, leading to better unification and improved MLLM generation and understanding.
- Abstract(参考訳): 一つのモデルでマルチモーダル生成と理解タスクを統合する努力にもかかわらず、これらのMLLMは、モデル自身の理解に基づいて入力プロンプトと不一致であると考えられる画像を生成する自己コントラディションを示す。
このような自己矛盾を定量化する不統一スコアを定義する。
私たちの経験的結果は、自己矛盾は主に誤解ではなく、プロンプトと一致しない弱い世代から生じます。
この能力非対称性は自己矛盾を自己改善に活用する可能性を示しており、より強いモデル理解は、より弱い世代を誘導し、世代の下にあるギャップを緩和する。
通常の訓練後手法(例えば、SFT、DPO)を内部監督に応用することは、生成と統合の両方をうまく改善する。
予備訓練で知られている現象である生成ブランチを微調整するだけで, 生成と理解の両面での協調的改善効果を見出した。
分析の結果,これまで誤認識されていた偽陽性の検出精度が向上していることが示唆された。
理論的には、生成と理解の間の整合性トレーニングのダイナミクスは、即時ミスアライメントを減らし、理解分岐におけるミスマッチ検出を改善できることを示す。
さらに、この枠組みは、我々の実験で実証的に検証された、見過ごされがちな状況下での協調劣化の潜在的なリスクを明らかにする。
特に、非統一スコアのような固有のメトリクスは、データ品質チェックの必要性を強調する共同改善と共劣化を区別できない。
最後に, モデルの改良とともに, より厳密なサンプルを徐々に導入し, 統一性とMLLMの生成と理解を向上するカリキュラムベースの戦略を提案する。
関連論文リスト
- Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Incentivizing Truthful Language Models via Peer Elicitation Games [10.530016288072506]
大きな言語モデル(LLM)は強力な生成能力を示しているが、矛盾や幻覚の傾向が強い。
我々は,異なるベースモデルからインスタンス化されたジェネレータと複数の識別器を含むピア・エリケーション機構を通じて,LPMを整列させる学習自由ゲーム理論フレームワークであるPeer Elicitation Games (PEG)を紹介した。
論文 参考訳(メタデータ) (2025-05-19T18:16:58Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - Unpacking the Resilience of SNLI Contradiction Examples to Attacks [0.38366697175402226]
我々は,モデルの脆弱性を調べるためにユニバーサル・アドバイサル・アタックを適用した。
分析の結果,含意クラスと中性クラスの精度は著しく低下した。
逆例のある拡張データセット上でモデルを微調整することで、その性能はほぼベースラインレベルに回復した。
論文 参考訳(メタデータ) (2024-12-15T12:47:28Z) - Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。
本稿では,自己改善のための数学的定式化について述べる。
また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文 参考訳(メタデータ) (2024-12-03T18:47:26Z) - Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
拡散モデルは、回帰を通じてスコア関数を訓練することだけを必要とするGANの非敵対的な代替品として登場した。
提案手法は, GANスタイルの模倣学習ベースラインと差別化なし模倣学習ベースラインの両方を, 連続制御問題に比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - On the Intrinsic Self-Correction Capability of LLMs: Uncertainty and Latent Concept [36.27550578296276]
大規模言語モデル(LLM)は、自己補正(self-correction)と呼ばれる機能によって、その応答を改善することができる。
内在的な自己補正は、様々な応用で明らかであるが、それが有効である理由や理由は不明である。
内在的な自己補正は徐々に改善され、収束状態に近づくことができることを示す。
論文 参考訳(メタデータ) (2024-06-04T14:55:43Z) - A Simple Contrastive Learning Objective for Alleviating Neural Text
Degeneration [56.64703901898937]
本稿では,クロスエントロピーと異種訓練の利点を継承する,新しい対照的なトークン学習目標を提案する。
言語モデリングとオープンドメイン対話生成タスクに関する総合的な実験は、提案したコントラストトークンの目的がより繰り返しの少ないテキストを生成することを示す。
論文 参考訳(メタデータ) (2022-05-05T08:50:50Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - Improving Self-supervised Learning with Automated Unsupervised Outlier
Arbitration [83.29856873525674]
本稿では,自己教師型学習のためのビューサンプリング問題を対象とした,軽量潜在変数モデル UOTA を提案する。
本手法は,多くの主流な自己指導型学習手法に直接応用する。
論文 参考訳(メタデータ) (2021-12-15T14:05:23Z) - Solving Inefficiency of Self-supervised Representation Learning [87.30876679780532]
既存のコントラスト学習法は、非常に低い学習効率に苦しむ。
アンダークラスタリングとオーバークラスタリングの問題は、学習効率の大きな障害である。
中央三重項損失を用いた新しい自己監督学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-18T07:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。