論文の概要: Astrea: A MOE-based Visual Understanding Model with Progressive Alignment
- arxiv url: http://arxiv.org/abs/2503.09445v1
- Date: Wed, 12 Mar 2025 14:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:07.133812
- Title: Astrea: A MOE-based Visual Understanding Model with Progressive Alignment
- Title(参考訳): Astrea: プログレッシブアライメントを備えたMOEベースの視覚理解モデル
- Authors: Xiaoda Yang, JunYu Lu, Hongshun Qiu, Sijing Li, Hao Li, Shengpeng Ji, Xudong Tang, Jiayang Xu, Jiaqi Duan, Ziyue Jiang, Cong Lin, Sihang Cai, Zejian Xie, Zhuoyang Song, Songxin Zhang,
- Abstract要約: マルチモーダル理解において,Mixture-of-Experts (MoE)アーキテクチャに基づく視覚言語モデル (VLM) が重要なパラダイムとして登場した。
本稿では,プログレッシブ事前アライメントに基づく新しいマルチエキスパート協調型VLMアーキテクチャであるAstreaを提案する。
- 参考スコア(独自算出の注目度): 10.943104653307294
- License:
- Abstract: Vision-Language Models (VLMs) based on Mixture-of-Experts (MoE) architectures have emerged as a pivotal paradigm in multimodal understanding, offering a powerful framework for integrating visual and linguistic information. However, the increasing complexity and diversity of tasks present significant challenges in coordinating load balancing across heterogeneous visual experts, where optimizing one specialist's performance often compromises others' capabilities. To address task heterogeneity and expert load imbalance, we propose Astrea, a novel multi-expert collaborative VLM architecture based on progressive pre-alignment. Astrea introduces three key innovations: 1) A heterogeneous expert coordination mechanism that integrates four specialized models (detection, segmentation, classification, captioning) into a comprehensive expert matrix covering essential visual comprehension elements; 2) A dynamic knowledge fusion strategy featuring progressive pre-alignment to harmonize experts within the VLM latent space through contrastive learning, complemented by probabilistically activated stochastic residual connections to preserve knowledge continuity; 3) An enhanced optimization framework utilizing momentum contrastive learning for long-range dependency modeling and adaptive weight allocators for real-time expert contribution calibration. Extensive evaluations across 12 benchmark tasks spanning VQA, image captioning, and cross-modal retrieval demonstrate Astrea's superiority over state-of-the-art models, achieving an average performance gain of +4.7\%. This study provides the first empirical demonstration that progressive pre-alignment strategies enable VLMs to overcome task heterogeneity limitations, establishing new methodological foundations for developing general-purpose multimodal agents.
- Abstract(参考訳): マルチモーダル理解において、Mixture-of-Experts (MoE)アーキテクチャに基づく視覚言語モデル(VLM)が重要なパラダイムとして登場し、視覚情報と言語情報を統合するための強力なフレームワークを提供する。
しかし、タスクの複雑さと多様性の増大は、あるスペシャリストのパフォーマンスを最適化することで、他のスペシャリストの能力を損なうことの多い異種視覚専門家間のロードバランシングを調整する上で、重大な課題をもたらしている。
タスクの不均一性と専門家の負荷不均衡に対処するため,プログレッシブ・プレアライメントに基づく新しいマルチエキスパート協調型VLMアーキテクチャであるAstreaを提案する。
Astreaは3つの重要なイノベーションを紹介している。
1)4つの専門モデル(検出,区分,分類,キャプション)を視覚的理解要素を包含する包括的専門家行列に統合する異種専門家調整機構
2 知識継続性を維持するために確率的に活性化された確率的残留接続を補完して、VLM潜伏空間内の専門家を対照的な学習を通じて調和させる段階的な事前調整を特徴とする動的知識融合戦略。
3) 長期依存モデルと適応重みアロケータのための運動量コントラスト学習を生かした拡張最適化フレームワーク。
VQA、画像キャプション、クロスモーダル検索にまたがる12のベンチマークタスクに対する広範囲な評価は、アストリアが最先端のモデルよりも優れていることを示している。
本研究は, VLMがタスクの不均一性制限を克服し, 汎用マルチモーダルエージェントを開発するための新しい方法論の基礎を確立できる, プログレッシブ事前調整戦略の実証実験である。
関連論文リスト
- SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization [2.1682783789464968]
きめ細かいアクション認識(FAR)は、短い時間内に詳細なセマンティックラベルに焦点を当てる。
ラベルのアノテートコストと微調整 LLM に必要なデータ量を考えると,半教師付き学習(SSL)の導入を提案する。
当社のフレームワークであるSeFARには,これらの課題に対処するための革新的な設計がいくつか含まれています。
論文 参考訳(メタデータ) (2025-01-02T13:12:12Z) - Chimera: Improving Generalist Model with Domain-Specific Experts [35.706585190958634]
ドメイン特化の専門家による既存のLMMの能力を高めるために,スケーラブルで低コストなマルチモーダルパイプラインを導入する。
具体的には、プログレッシブ・トレーニング・ストラテジーを設計し、専門家モデルからの機能をジェネラリストLMMの入力に統合する。
結果として、チャート、テーブル、数学、ドキュメントドメインにまたがる多用途モデルが出来上がります。
論文 参考訳(メタデータ) (2024-12-08T16:10:42Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Alt-MoE:A Scalable Framework for Bidirectional Multimodal Alignment and Efficient Knowledge Integration [6.928469290518152]
マルチモーダル学習は、共有潜在空間内で異なるモダリティを整列させることにより、著しく進歩した。
直接アライメントは、豊富なモダル内知識を十分に活用するのに苦労し、しばしばクロスモーダル表現を達成するために広範なトレーニングデータを必要とする。
Alt-MoEはスケーラブルなマルチモーダルアライメントフレームワークで、モダリティをまたいだ多方向コネクタとして専門家(MoE)モデルの混合を利用する。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。