論文の概要: UniGame: Turning a Unified Multimodal Model Into Its Own Adversary
- arxiv url: http://arxiv.org/abs/2511.19413v1
- Date: Mon, 24 Nov 2025 18:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.373194
- Title: UniGame: Turning a Unified Multimodal Model Into Its Own Adversary
- Title(参考訳): UniGame: 統一されたマルチモーダルモデルを独自のアドバイザリーに変える
- Authors: Zhaolong Su, Wang Lu, Hao Chen, Sharon Li, Jindong Wang,
- Abstract要約: Unified Multimodal Models (UMM) は、単一のアーキテクチャによる理解と生成の両方において、優れたパフォーマンスを示している。
我々は,不整合を直接対象とする自己学習後フレームワークUniGameを紹介する。
- 参考スコア(独自算出の注目度): 21.728770994708402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified Multimodal Models (UMMs) have shown impressive performance in both understanding and generation with a single architecture. However, UMMs still exhibit a fundamental inconsistency: understanding favors compact embeddings, whereas generation favors reconstruction-rich representations. This structural trade-off produces misaligned decision boundaries, degraded cross-modal coherence, and heightened vulnerability under distributional and adversarial shifts. In this paper, we present UniGame, a self-adversarial post-training framework that directly targets the inconsistencies. By applying a lightweight perturber at the shared token interface, UniGame enables the generation branch to actively seek and challenge fragile understanding, turning the model itself into its own adversary. Experiments demonstrate that UniGame significantly improves the consistency (+4.6%). Moreover, it also achieves substantial improvements in understanding (+3.6%), generation (+0.02), out-of-distribution and adversarial robustness (+4.8% and +6.2% on NaturalBench and AdVQA). The framework is architecture-agnostic, introduces less than 1% additional parameters, and is complementary to existing post-training methods. These results position adversarial self-play as a general and effective principle for enhancing the coherence, stability, and unified competence of future multimodal foundation models. The official code is available at: https://github.com/AIFrontierLab/UniGame
- Abstract(参考訳): Unified Multimodal Models (UMM) は、単一のアーキテクチャによる理解と生成の両方において、優れたパフォーマンスを示している。
理解はコンパクトな埋め込みを好むが、世代は再構成に富む表現を好む。
この構造的トレードオフは、不整合決定境界、劣化したクロスモーダルコヒーレンス、および分散シフトおよび逆シフトの下での脆弱性を増大させる。
本稿では,不整合を直接対象とする自己学習後フレームワークUniGameを提案する。
共有トークンインターフェースに軽量なパーターバーを適用することで、UniGameは生成ブランチが脆弱な理解を積極的に求め、挑戦し、モデル自体を独自の敵にすることを可能にする。
実験の結果、UniGameは一貫性(+4.6%)を大幅に改善した。
さらに、理解力(+3.6%)、生成力(+0.02)、アウト・オブ・ディストリビューション、敵の堅牢性(+4.8%、+6.2%はNaturalBenchとAdVQA)を大幅に改善する。
フレームワークはアーキテクチャに依存しず、1%以上の追加パラメータを導入し、既存のポストトレーニングメソッドを補完する。
これらの結果は、将来のマルチモーダル基礎モデルのコヒーレンス、安定性、統一能力を高めるための一般的かつ効果的な原理として、敵対的自己プレイを位置づけている。
公式コードは、https://github.com/AIFrontierLab/UniGameで入手できる。
関連論文リスト
- Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - Uni-X: Mitigating Modality Conflict with a Two-End-Separated Architecture for Unified Multimodal Models [27.38501052629525]
We propose Uni-X, a two-end-separated, middle-shared architecture for unified multimodal model。
Uni-Xは、その初期層と最終層をモダリティ固有の処理に捧げ、ハイレベルなセマンティックフュージョンのために中間層で共有パラメータを維持している。
この結果から,Uni-Xは将来の統一マルチモーダルモデリングのためのパラメータ効率・拡張性の基礎として確立された。
論文 参考訳(メタデータ) (2025-09-29T07:05:10Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition [18.582459363950907]
手書き数学的表現認識(HMER)は、光学文字認識(OCR)における永続的な課題である
アーキテクチャを変更することなく,HMERタスクの視覚言語モデルを完全に微調整するUni-MuMERを提案する。
構造的空間推論のためのTree-CoT(Tree-CoT)、視覚的に類似した文字間の混乱を減らすためのエラー駆動学習(EDL)、長い表現における認識整合性を改善するためのシンボルカウント(SC)の3つのデータ駆動タスクを統合した。
論文 参考訳(メタデータ) (2025-05-29T15:41:00Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Combating Exacerbated Heterogeneity for Robust Models in Federated
Learning [91.88122934924435]
対人訓練と連合学習の組み合わせは、望ましくない頑丈さの劣化につながる可能性がある。
我々は、Slack Federated Adversarial Training (SFAT)と呼ばれる新しいフレームワークを提案する。
各種ベンチマークおよび実世界のデータセットに対するSFATの合理性と有効性を検証する。
論文 参考訳(メタデータ) (2023-03-01T06:16:15Z) - Learning Target-aware Representation for Visual Tracking via Informative
Interactions [49.552877881662475]
トラッキングのための特徴表現のターゲット認識能力を改善するために,新しいバックボーンアーキテクチャを提案する。
提案したGIMモジュールとInBN機構は、CNNやTransformerなど、さまざまなバックボーンタイプに適用可能である。
論文 参考訳(メタデータ) (2022-01-07T16:22:27Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。