論文の概要: Resolving Task Objective Conflicts in Unified Multimodal Understanding and Generation via Task-Aware Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2506.03591v1
- Date: Wed, 04 Jun 2025 05:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.171371
- Title: Resolving Task Objective Conflicts in Unified Multimodal Understanding and Generation via Task-Aware Mixture-of-Experts
- Title(参考訳): Task-Aware Mixture-of-Expertsによる統合マルチモーダル理解・生成におけるタスク客観的対立の解消
- Authors: Jiaxing Zhang, Xinyi Zeng, Hao Tang,
- Abstract要約: マルチモーダル・大規模言語モデル(MLLM)は、理解タスクと生成タスクを単一のフレームワークに統合する。
固有のタスク目的 理解における高レベルのセマンティックな抽象化と、生成時のきめ細かい詳細保存との間の対立は、重大な課題である。
タスク目的の衝突を解決するために,ARの内部コンポーネントを分離する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 11.307588007047407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal large language models (MLLMs) based on end-to-end autoregressive (AR) transformers effectively integrate both understanding and generation tasks within a single framework. However, intrinsic Task Objective Conflicts between high-level semantic abstraction in understanding and fine-grained detail preservation in generation pose significant challenges, often leading to suboptimal trade-offs and task interference. Existing solutions, such as decoupling shared visual encoders, fall short of fundamentally resolving these conflicts due to inherent AR architecture. In this paper, we propose a novel approach that decouples internal components of AR to resolve task objective conflicts. Specifically, we design UTAMoE, a Unified Task-Aware Mixture-of-Experts (MoE) framework that decouples internal AR modules via a Task-Aware MoE Layer to create task-specific optimization subpaths. To enhance task differentiation while maintaining overall coordination, we introduce a novel Two-Stage Training Strategy. Extensive experiments on multimodal benchmarks demonstrate that UTAMoE mitigates task objective conflicts, achieving state-of-the-art performance across various tasks. Visualizations and ablation studies further validate the effectiveness of our approach.
- Abstract(参考訳): エンドツーエンドオートレグレッシブ(AR)トランスフォーマーをベースとしたMLLM(Unified Multimodal Large Language Model)は,単一のフレームワーク内での理解タスクと生成タスクを効果的に統合する。
しかし、理解における高レベルのセマンティック抽象化と生成時のきめ細かい詳細保存との間の固有のタスク目的の対立は重大な課題を引き起こし、しばしば最適なトレードオフやタスク干渉につながる。
共有ビジュアルエンコーダの分離のような既存のソリューションでは、固有のARアーキテクチャのため、これらの競合を根本的に解決することができない。
本稿では,タスク目的の対立を解決するために,ARの内部コンポーネントを分離する新しいアプローチを提案する。
具体的には、タスク固有の最適化サブパスを作成するために、タスク対応のMoEレイヤを介して内部ARモジュールを分離する、統一タスク対応Mixture-of-Experts(MoE)フレームワークであるUTAMoEを設計する。
総合的なコーディネーションを維持しながらタスクの分化を高めるために,我々は新しい2段階トレーニング戦略を導入する。
マルチモーダルベンチマークの大規模な実験により、UTAMoEはタスク目的の競合を緩和し、様々なタスクで最先端のパフォーマンスを達成することが示されている。
可視化およびアブレーション研究は、我々のアプローチの有効性をさらに検証する。
関連論文リスト
- Towards Unified Modeling in Federated Multi-Task Learning via Subspace Decoupling [23.642760378344335]
Federated Multi-Task Learning (FMTL) は、複数のクライアントがローカルデータを交換することなく異種タスクを実行できる。
既存のFMTLメソッドのほとんどは、各クライアント用にパーソナライズされたモデルを構築することに集中しており、複数の異種タスクの集約を統一モデルにサポートできない。
マルチタスクモデル統合に特化して設計された更新構造対応アグリゲーション手法であるFedDEAを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:53:21Z) - ThanoRA: Task Heterogeneity-Aware Multi-Task Low-Rank Adaptation [73.18867725540865]
Low-Rank Adaptation (LoRA) は、基礎モデルの下流の微調整に広く採用されている。
タスク不均一性を考慮したマルチタスク低ランク適応フレームワークであるTanoRAを提案する。
論文 参考訳(メタデータ) (2025-05-24T11:01:45Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - InterroGate: Learning to Share, Specialize, and Prune Representations
for Multi-task Learning [17.66308231838553]
推論計算効率を最適化しつつ,タスク干渉を緩和する新しいマルチタスク学習(MTL)アーキテクチャを提案する。
学習可能なゲーティング機構を用いて、すべてのタスクのパフォーマンスを保ちながら、共有表現とタスク固有の表現を自動的にバランスさせる。
論文 参考訳(メタデータ) (2024-02-26T18:59:52Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Contrastive Modules with Temporal Attention for Multi-Task Reinforcement
Learning [29.14234496784581]
マルチタスク強化学習のためのCMTA法を用いたコントラストモジュールを提案する。
CMTAは、互いに異なるモジュールを対照的に学習し、共有モジュールをタスクレベルよりも細かい粒度で組み合わせることによって制約する。
実験の結果,CMTAは各タスクを個別に学習し,大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:41:00Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Breaking Down the Task: A Unit-Grained Hybrid Training Framework for
Vision and Language Decision Making [19.87916700767421]
視覚言語意思決定(VLDM)は、難しいマルチモーダルタスクである。
環境の観点からは、タスクエピソードはきめ細かいテキストユニットに分けることができる。
本研究では,環境中を活発に探索し,露光バイアスを低減できる新しいハイブリッド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-16T11:54:16Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。