論文の概要: UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
- arxiv url: http://arxiv.org/abs/2601.03193v1
- Date: Tue, 06 Jan 2026 17:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.038767
- Title: UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
- Title(参考訳): UniCorn: 自己生成型スーパービジョンによる統一マルチモーダルモデルの自己改善に向けて
- Authors: Ruiyan Han, Zhen Fang, XinYu Sun, Yuchen Ma, Ziheng Wang, Yu Zeng, Zehui Chen, Lin Chen, Wenxuan Huang, Wei-Jie Xu, Yi Cao, Feng Zhao,
- Abstract要約: 導電失語(Conduction Aphasia)は、モデルがマルチモーダル入力を正確に解釈するが、その理解を忠実で制御可能な合成に変換するのに苦労する現象である。
外部データや教師の監督を必要としない,シンプルでエレガントな自己改善フレームワークUniCornを提案する。
マルチモーダルコヒーレンスの回復を検証するために,テキスト・トゥ・イメージ・トゥ・テクスチャ・コンシステンシー・ベンチマークであるUniCycleを導入する。
- 参考スコア(独自算出の注目度): 34.575729271291436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Unified Multimodal Models (UMMs) have achieved remarkable success in cross-modal comprehension, a significant gap persists in their ability to leverage such internal knowledge for high-quality generation. We formalize this discrepancy as Conduction Aphasia, a phenomenon where models accurately interpret multimodal inputs but struggle to translate that understanding into faithful and controllable synthesis. To address this, we propose UniCorn, a simple yet elegant self-improvement framework that eliminates the need for external data or teacher supervision. By partitioning a single UMM into three collaborative roles: Proposer, Solver, and Judge, UniCorn generates high-quality interactions via self-play and employs cognitive pattern reconstruction to distill latent understanding into explicit generative signals. To validate the restoration of multimodal coherence, we introduce UniCycle, a cycle-consistency benchmark based on a Text to Image to Text reconstruction loop. Extensive experiments demonstrate that UniCorn achieves comprehensive and substantial improvements over the base model across six general image generation benchmarks. Notably, it achieves SOTA performance on TIIF(73.8), DPG(86.8), CompBench(88.5), and UniCycle while further delivering substantial gains of +5.0 on WISE and +6.5 on OneIG. These results highlight that our method significantly enhances T2I generation while maintaining robust comprehension, demonstrating the scalability of fully self-supervised refinement for unified multimodal intelligence.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、クロスモーダル理解において顕著な成功を収めてきたが、そのような内部知識を高品質な世代に活用する能力において、大きなギャップが持続している。
これはモデルがマルチモーダル入力を正確に解釈するが、その理解を忠実で制御可能な合成に変換するのに苦労する現象である。
そこで我々は,外部データや教師の監督を必要としない,シンプルでエレガントな自己改善フレームワークUniCornを提案する。
プロポーラ、ソルバー、およびジャッジの3つの協調的な役割に1つのUMMを分割することで、UniCornは自己プレイを通じて高品質なインタラクションを生成し、認知パターン再構成を用いて、潜在的理解を明確な生成シグナルに融合させる。
マルチモーダルコヒーレンスの回復を検証するために,テキスト・トゥ・イメージ・トゥ・テクスチャ・コンシステンシー・ベンチマークであるUniCycleを導入する。
大規模な実験により、UniCornは6つの一般的な画像生成ベンチマークでベースモデルよりも包括的で実質的な改善を実現している。
特にTIIF(73.8)、DPG(86.8)、CompBench(88.5)、UniCycleのSOTA性能は向上し、WISEでは+5.0、OneIGでは+6.5となる。
これらの結果から,本手法は堅牢な理解を維持しながらT2I生成を著しく向上させ,統合マルチモーダルインテリジェンスのための完全自己教師型改良のスケーラビリティを実証した。
関連論文リスト
- STAR: STacked AutoRegressive Scheme for Unified Multimodal Learning [37.68078190711403]
STAR:STacked AutoRegressive scheme for task-progressive unified multimodal learning。
このアプローチはマルチモーダル学習を理解、生成、編集という複数の段階に分解する。
実験により、STARがGenEval(0.91)、DPG-Bench(87.44)、ImgEdit(4.34)の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2025-12-15T07:02:59Z) - UniGame: Turning a Unified Multimodal Model Into Its Own Adversary [21.728770994708402]
Unified Multimodal Models (UMM) は、単一のアーキテクチャによる理解と生成の両方において、優れたパフォーマンスを示している。
我々は,不整合を直接対象とする自己学習後フレームワークUniGameを紹介する。
論文 参考訳(メタデータ) (2025-11-24T18:50:01Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - MMaDA: Multimodal Large Diffusion Language Models [61.13527224215318]
マルチモーダル拡散基礎モデルの新たなクラスであるMMaDAを紹介する。
テキスト推論、マルチモーダル理解、テキスト・ツー・イメージ生成など、さまざまな領域で優れたパフォーマンスを実現するように設計されている。
論文 参考訳(メタデータ) (2025-05-21T17:59:05Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。