論文の概要: PRISM: Synergizing Vision Foundation Models via Self-organized Expert Specialization
- arxiv url: http://arxiv.org/abs/2606.03444v1
- Date: Tue, 02 Jun 2026 10:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.938067
- Title: PRISM: Synergizing Vision Foundation Models via Self-organized Expert Specialization
- Title(参考訳): PRISM: 自己組織型エキスパートスペシャライゼーションによるビジョンファウンデーションモデルの統合
- Authors: Ying Tang, Dong Li, Youjia Zhang, Zikai Song, Junqing Yu, Wei Yang,
- Abstract要約: モジュールの特殊化によるVFMの相乗化を実現する,新しい双方向Mixture-of-Experts (MoE) フレームワークである textbfPRISM を紹介する。
PASCAL-ContextとNYUD-v2の実験は、textbfPRISMが芸術の新たな状態を確立し、スパースで創発的な特殊化は多様な視覚知識を統合するためのスケーラブルなアプローチであることを証明している。
- 参考スコア(独自算出の注目度): 25.22639372242625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unifying the complementary strengths of diverse Vision Foundation Models (VFMs) into a single efficient model is highly desirable but challenged by the negative transfer inherent in monolithic distillation. To address these feature conflicts, we introduce \textbf{PRISM}, a novel dual-stream Mixture-of-Experts (MoE) framework that synergizes VFMs via modular specialization. We propose a two-stage paradigm: (1) expertise deconstruction, where a teacher-conditional router guides experts to specialize in distinct representational subspaces to mitigate interference, followed by (2) dynamic recomposition, where the router learns to assemble these experts into tailored computational pathways for downstream tasks. Experiments on PASCAL-Context and NYUD-v2 show that \textbf{PRISM} establishes a new state of the art, validating that sparse, emergent specialization is a scalable approach for integrating diverse visual knowledge.
- Abstract(参考訳): 多様なビジョンファンデーションモデル(VFM)の相補的な強みを単一の効率的なモデルに統一することは、非常に望ましいが、モノリシック蒸留に固有の負の移動によって挑戦される。
これらの特徴の対立に対処するために,モジュールの特殊化によりVFMを相乗化する新しい2重ストリームMixture-of-Experts (MoE) フレームワークである \textbf{PRISM} を紹介する。
本稿では,(1)教師条件付ルータが専門家に干渉を軽減するために異なる表現部分空間を専門化するよう誘導する専門的デコンストラクション,(2)動的リコンストラクション,(2)ルータがこれらの専門家を下流タスクに適した計算経路に組み立てることを学ぶ2段階のパラダイムを提案する。
PASCAL-ContextとNYUD-v2の実験によると、‘textbf{PRISM}’は、多様な視覚知識を統合するためのスケーラブルなアプローチであり、スパースで創発的な特殊化を実証する新しい最先端技術を確立している。
関連論文リスト
- MME: Mixture of Mesh Experts with Random Walk Transformer Gating [13.564417897372875]
本稿では,多種多様なアプローチの相補的強みを生かした,新たなMixture of Experts(MoE)フレームワークを提案する。
そこで我々は,各専門家が優れたクラスを専門に扱うことを奨励する新しいゲートアーキテクチャを提案する。
我々のフレームワークはメッシュ分類、検索、セマンティックセグメンテーションタスクにおける最先端の結果を達成する。
論文 参考訳(メタデータ) (2026-02-28T22:13:00Z) - $n$-Musketeers: Reinforcement Learning Shapes Collaboration Among Language Models [17.293403543585413]
複数の凍結したSLM専門家がトレーニング可能なアテンションインターフェースを通じて統合されるソフトな隠れ状態コラボレーションを導入する。
Reasoning GymとGSM8Kの実験は、この潜伏統合が強力なシングルモデルRLVRベースラインと競合していることを示している。
全体として、隠れ状態のコラボレーションは、凍結した専門家を活用するためのコンパクトなメカニズムを提供すると同時に、専門家の利用パターンとそのRLVR下での進化に対する観察窓を提供する。
論文 参考訳(メタデータ) (2026-02-09T20:27:52Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - A Tale of Two Experts: Cooperative Learning for Source-Free Unsupervised Domain Adaptation [59.88864205383671]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、ソースデータにアクセスすることなく、ターゲットドメインにソース学習モデルを適用するという現実的な課題に対処する。
既存のSFUDA手法は、ソースモデルの予測のみを利用するか、大きなマルチモーダルモデルを微調整する。
本稿では、補完的な洞察と対象データの潜在構造を利用するためのエキスパート協調学習(EXCL)を提案する。
論文 参考訳(メタデータ) (2025-09-26T11:39:50Z) - Astrea: A MOE-based Visual Understanding Model with Progressive Alignment [10.943104653307294]
マルチモーダル理解において,Mixture-of-Experts (MoE)アーキテクチャに基づく視覚言語モデル (VLM) が重要なパラダイムとして登場した。
本稿では,プログレッシブ事前アライメントに基づく新しいマルチエキスパート協調型VLMアーキテクチャであるAstreaを提案する。
論文 参考訳(メタデータ) (2025-03-12T14:44:52Z) - Robust Training of Federated Models with Extremely Label Deficiency [84.00832527512148]
フェデレーション半教師付き学習(FSSL)は、ラベル不足を伴う分散データを用いて機械学習モデルを協調訓練するための強力なパラダイムとして登場した。
我々は,ラベル付きおよびラベルなしデータの異なる視点から洞察を提供することにより相互指導を強化するために,ツインサイトと呼ばれる新しいツインモデルパラダイムを提案する。
4つのベンチマークデータセットに関する包括的な実験は、Twin-sightが様々な実験環境において最先端の手法を著しく上回っていることを示す重要な証拠となる。
論文 参考訳(メタデータ) (2024-02-22T10:19:34Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - Universal Information Extraction as Unified Semantic Matching [54.19974454019611]
情報抽出を,異なるタスクやスキーマで共有される構造化と概念化という,2つの能力に分割する。
このパラダイムに基づいて、統一意味マッチングフレームワークを用いて様々なIEタスクを普遍的にモデル化することを提案する。
このように、USMはスキーマと入力テキストを共同でエンコードし、サブ構造を一様に並列に抽出し、必要に応じてターゲット構造を制御できる。
論文 参考訳(メタデータ) (2023-01-09T11:51:31Z) - Diversified Dynamic Routing for Vision Tasks [36.199659460868496]
本稿では,各レイヤが専門家の集合で構成された新しいアーキテクチャを提案する。
本手法では,データのパーティショニングに関する課題を解決するために,モデルを明示的に訓練する。
都市景観のセマンティックセグメンテーションとMS-COCOのオブジェクト検出とインスタンスセグメンテーションについていくつかの実験を行った。
論文 参考訳(メタデータ) (2022-09-26T23:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。