論文の概要: Do Understanding and Generation Fight? A Diagnostic Study of DPO for Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2603.17044v1
- Date: Tue, 17 Mar 2026 18:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.346652
- Title: Do Understanding and Generation Fight? A Diagnostic Study of DPO for Unified Multimodal Models
- Title(参考訳): 理解と生成の闘い : 統一マルチモーダルモデルにおけるDPOの診断的研究
- Authors: Abinav Rao, Sujan Rachuri,
- Abstract要約: 統一マルチモーダルモデルは、画像の理解と生成の両方のための言語モデルバックボーンを共有する。
DPOは両方の機能を同時に調整できますか?
1B と 7B のパラメータで DPO を Janus-Pro に適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unified multimodal models share a language model backbone for both understanding and generating images. Can DPO align both capabilities simultaneously? We present the first systematic study of this question, applying DPO to Janus-Pro at 1B and 7B parameters under seven training strategies and two post-hoc methods. The central finding is negative: generation quality resists DPO alignment across all tested conditions on this architecture. No method improves generation CLIPScore at 7B (|Delta| < 0.2, p > 0.5 at n=200 per seed, 3 seeds); at 1B, all methods degrade generation, and the result holds across preference data types (real-vs-generated and model-vs-model) and the data volumes tested (150-288 pairs). Gradient analysis reveals why: understanding and generation gradients are near-orthogonal (cos ~ 0) with ~11-14x magnitude imbalance driven by VQ token count asymmetry (576 generation tokens vs. ~30-100 text tokens). This imbalance is the dominant interference mechanism in multi-task DPO; magnitude-balancing yields directionally positive understanding deltas (+0.01-0.04 VQA, though individually not significant), but the generation gap persists regardless. We identify discrete VQ tokenization as a likely structural bottleneck -- supported by the generation DPO loss converging to ln(2) -- and provide practical guidance for practitioners working with VQ-based unified models.
- Abstract(参考訳): 統一マルチモーダルモデルは、画像の理解と生成の両方のための言語モデルバックボーンを共有する。
DPOは両方の機能を同時に調整できますか?
本研究は,7つのトレーニング戦略と2つのポストホック法の下で,Janus-ProにDPOを1Bおよび7Bパラメータに適用した最初の系統的研究である。
生成品質は、このアーキテクチャのすべてのテスト条件におけるDPOアライメントに抵抗する。
CLIPScoreを7B(|Delta| < 0.2, p > 0.5 at n=200 per seed, 3 seed)で改善する手法はない。
理解と生成の勾配は、VQトークン数非対称性(576生成トークン対.30-100テキストトークン)によって駆動される~11-14x等級不均衡のほぼ直交(cos ~0)である。
この不均衡はマルチタスクDPOにおいて支配的な干渉機構であり、マグニチュードバランスは向きに正の理解デルタ(+0.01-0.04 VQA)をもたらすが、生成ギャップはいずれにせよ持続する。
我々は、個別のVQトークン化を、ln(2)に収束したDPOの世代損失が支える構造的ボトルネックとして認識し、VQベースの統一モデルを扱う実践者に対して実践的なガイダンスを提供する。
関連論文リスト
- Balancing Understanding and Generation in Discrete Diffusion Models [58.62235340638143]
Masked Diffusion Language Models (MDLM) は意味理解とゼロショットの一般化に優れる。
UDLM(Uniform-Noise Diffusion Language Models)は、強力な数ステップ生成品質を実現する。
定常雑音カーネルを介して2つのパラダイムをブリッジするXDLMを提案する。
論文 参考訳(メタデータ) (2026-02-01T18:00:35Z) - Discrete Diffusion Models for Language Generation [0.0]
本論文は、自然言語生成のための離散拡散モデルの実現可能性と性能について考察する。
我々は、生成性能を評価するためにBits Per Token(BPT)、Negative Log-Likelihood(NLL)、Perplexity(PPL)、Batch Processing Speedを使用します。
ARモデルは平均BPTが4.59で圧縮性能が向上するが、D3PMは処理速度が向上し、毎秒3.97バッチに達する。
論文 参考訳(メタデータ) (2025-07-02T23:43:02Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Next Block Prediction: Video Generation via Semi-Autoregressive Modeling [92.60177942930946]
Next-Block Prediction (NBP) は、ビデオ生成のための半自己回帰(セミAR)フレームワークである。
NBPは各ブロック内で双方向の注意を払っており、トークンはより堅牢な空間依存をキャプチャすることができる。
本モデルでは,UCF101では103.3点,K600では25.5点,バニラNTPモデルでは4.4点,FVDスコアは25.5点であった。
論文 参考訳(メタデータ) (2025-02-11T17:57:53Z) - PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination [14.50214193838818]
CLIPのようなビジョン言語(V-L)モデルのゼロショット一般化は、広く採用されている。
従来の手法では、テスト時のプロンプトチューニングを使用して、モデルを目に見えない領域に適応させたが、不均衡なクラス分布の問題を見落としていた。
本研究では,テストサンプルとフィルタ付き拡張ビューで得られた平均クラス確率によって重み付けされたクラス認識型プロトタイプアライメントを採用する。
論文 参考訳(メタデータ) (2024-04-11T07:26:00Z) - Variant Parallelism: Lightweight Deep Convolutional Models for
Distributed Inference on IoT Devices [0.0]
2つの主要なテクニックは、リソース制約のあるIoTデバイスにモデルを分散する際に、リアルタイムの推論制限を満たすために一般的に使用される。
本稿では,主モデルの異なる変種が生成され,別々のマシンにデプロイ可能な,アンサンブルに基づくディープラーニング分散手法である変分並列性(VP)を提案する。
その結果、我々のモデルではパラメータが5.8-7.1x少なく、4.3-31x少ない乗算累積(MAC)、2.5-13.2倍の応答時間をMobileNetV2と比較できることがわかった。
論文 参考訳(メタデータ) (2022-10-15T20:52:28Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。