論文の概要: Lance: Unified Multimodal Modeling by Multi-Task Synergy
- arxiv url: http://arxiv.org/abs/2605.18678v2
- Date: Wed, 20 May 2026 11:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.3229
- Title: Lance: Unified Multimodal Modeling by Multi-Task Synergy
- Title(参考訳): Lance: Multi-Task Synergy による統一マルチモーダルモデリング
- Authors: Fengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang,
- Abstract要約: Lanceは、画像とビデオの両方のマルチモーダル理解、生成、編集をサポートする軽量なネイティブ統一モデルである。
スクラッチからトレーニングされ、共有されたインターリーブされたマルチモーダルシーケンス上で、デュアルストリーム・ミックス・オブ・サーキットアーキテクチャを採用している。
実験により、Lanceは既存のオープンソース統一モデルよりも画像およびビデオ生成において大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 50.81778765489668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Lance, a lightweight native unified model supporting multimodal understanding, generation, and editing for both images and videos. Rather than relying on model capacity scaling or text-image-dominant designs, Lance explores a practical paradigm for unified multimodal modeling via collaborative multi-task training. It is grounded in two core principles: unified context modeling and decoupled capability pathways. Specifically, Lance is trained from scratch and employs a dual-stream mixture-of-experts architecture on shared interleaved multimodal sequences, enabling joint context learning while decoupling the pathways for understanding and generation. We further introduce modality-aware rotary positional encoding to mitigate interference among heterogeneous visual tokens and boost cross-task alignment. During training, Lance adopts a staged multi-task training paradigm with capability-oriented objectives and adaptive data scheduling to strengthen both semantic comprehension and visual generation performance. Experimental results demonstrate that Lance substantially outperforms existing open-source unified models in image and video generation, while retaining strong multimodal understanding capabilities. The homepage is available at https://lance-project.github.io.
- Abstract(参考訳): 画像とビデオの両方のマルチモーダル理解、生成、編集をサポートする軽量なネイティブ統一モデルであるLanceを紹介する。
モデルキャパシティのスケーリングやテキストイメージに支配的な設計に頼るのではなく、Lance氏は協調マルチタスクトレーニングによる統一マルチモーダルモデリングの実践的パラダイムを探求している。
これは、統合されたコンテキストモデリングと分離された機能経路の2つの基本原則に基づいている。
具体的には、Lanceはスクラッチからトレーニングされ、共有されたインターリーブされたマルチモーダルシーケンスに、デュアルストリームのミックス・オブ・エキスパートアーキテクチャを使用し、理解と生成のための経路を分離しながら、共同でコンテキスト学習を可能にする。
さらに、不均一な視覚トークン間の干渉を緩和し、クロスタスクアライメントを高めるために、モダリティ対応の回転位置符号化を導入する。
トレーニング中、Lanceは、機能指向の目標と適応データスケジューリングを備えたステージドマルチタスクトレーニングパラダイムを採用し、セマンティック理解と視覚生成の両方のパフォーマンスを強化する。
実験の結果,Lanceは画像およびビデオ生成において既存のオープンソース統一モデルよりも大幅に優れており,マルチモーダル理解能力は高いことがわかった。
ホームページはhttps://lance-project.github.ioで公開されている。
関連論文リスト
- Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。