論文の概要: Sparse Mixture-of-Experts for Multi-Channel Imaging: Are All Channel Interactions Required?
- arxiv url: http://arxiv.org/abs/2511.17400v1
- Date: Fri, 21 Nov 2025 17:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.125675
- Title: Sparse Mixture-of-Experts for Multi-Channel Imaging: Are All Channel Interactions Required?
- Title(参考訳): マルチチャネルイメージングのためのスパースミキサー--全てのチャネル相互作用は必要か?
- Authors: Sukwon Yun, Heming Yao, Burkhard Hoeckendorf, David Richmond, Aviv Regev, Russell Littman,
- Abstract要約: MoE-ViTは、$textViTs$のマルチチャネル画像のためのMixture-of-Expertsアーキテクチャである。
各チャネルをエキスパートとして扱い、パッチ毎に最も関連性の高い専門家のみを選択するために軽量ルータを使用する。
犠牲にすることなく実質的な効率向上を実現し、場合によっては性能を向上する。
- 参考スコア(独自算出の注目度): 10.223386883838186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers ($\text{ViTs}$) have become the backbone of vision foundation models, yet their optimization for multi-channel domains - such as cell painting or satellite imagery - remains underexplored. A key challenge in these domains is capturing interactions between channels, as each channel carries different information. While existing works have shown efficacy by treating each channel independently during tokenization, this approach naturally introduces a major computational bottleneck in the attention block - channel-wise comparisons leads to a quadratic growth in attention, resulting in excessive $\text{FLOPs}$ and high training cost. In this work, we shift focus from efficacy to the overlooked efficiency challenge in cross-channel attention and ask: "Is it necessary to model all channel interactions?". Inspired by the philosophy of Sparse Mixture-of-Experts ($\text{MoE}$), we propose MoE-ViT, a Mixture-of-Experts architecture for multi-channel images in $\text{ViTs}$, which treats each channel as an expert and employs a lightweight router to select only the most relevant experts per patch for attention. Proof-of-concept experiments on real-world datasets - JUMP-CP and So2Sat - demonstrate that $\text{MoE-ViT}$ achieves substantial efficiency gains without sacrificing, and in some cases enhancing, performance, making it a practical and attractive backbone for multi-channel imaging.
- Abstract(参考訳): ビジョントランスフォーマー(\text{ViTs}$)は、視覚基盤モデルのバックボーンとなっているが、セルペイントや衛星画像などのマルチチャネルドメインに対する最適化は、まだ検討されていない。
これらの領域における重要な課題は、各チャネルが異なる情報を運ぶため、チャネル間のインタラクションをキャプチャすることだ。
既存の研究はトークン化の過程で各チャネルを独立に扱うことで有効性を示してきたが、このアプローチは自然に注意ブロックにおける大きな計算ボトルネックを生じさせ、チャネルワイド比較は注意の二次的な成長をもたらし、結果として過大な$\text{FLOPs}$と高いトレーニングコストをもたらす。
本研究は,全チャネル間相互作用をモデル化する必要があるか?」と問うため,効率性から,見落とされた効率性の課題へ焦点を移す。
提案するMoE-ViTはマルチチャネル画像のためのMixture-of-Expertsアーキテクチャで,各チャネルを専門家として扱い,パッチ毎に最も関連性の高い専門家のみを選択するために軽量ルータを使用する。
実世界のデータセット(JUMP-CPとSo2Sat)における概念実証実験は、$\text{MoE-ViT}$が犠牲にすることなくかなりの効率向上を実現し、場合によっては性能を向上し、マルチチャネルイメージングの実用的で魅力的なバックボーンとなることを実証している。
関連論文リスト
- Isolated Channel Vision Transformers: From Single-Channel Pretraining to Multi-Channel Finetuning [4.376574371216863]
大規模MCIデータセットのための簡易かつ効果的な事前学習フレームワークを提案する。
分離チャネル ViT (IC-ViT) と呼ばれるこの手法は,画像チャネルを個別にパッチし,マルチモーダルなマルチチャネルタスクの事前学習を可能にする。
JUMP-CPとCHAMMI、衛星画像用So2Sat-LCZ42など、様々なタスクとベンチマークの実験により、提案されたIC-ViTはパフォーマンス改善の4-14ポイントを提供することが示された。
論文 参考訳(メタデータ) (2025-03-12T20:45:02Z) - Distilling Channels for Efficient Deep Tracking [68.13422829310835]
本稿では,ディープトラッカーを容易にするための新しいチャネル蒸留法を提案する。
統合的な定式化は,特徴圧縮,応答マップ生成,モデル更新を統一エネルギー最小化問題に変換することができることを示す。
その結果、ディープトラッカーは正確で高速で、メモリ要求が低い。
論文 参考訳(メタデータ) (2024-09-18T08:09:20Z) - (PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork [60.889175951038496]
大規模ニューラルネットワークは、視覚や言語処理など、さまざまな領域で顕著なパフォーマンスを示している。
構造的刈り込みの鍵となる問題のひとつは、チャネルの意義を見積もる方法である。
我々は,新しいアルゴリズムフレームワーク,すなわち textttPASS を提案する。
視覚的プロンプトとネットワーク重み統計の両方を入力とし、繰り返し的に層ワイドチャネル間隔を出力するように調整されたハイパーネットワークである。
論文 参考訳(メタデータ) (2024-07-24T16:47:45Z) - SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion [59.96233305733875]
時系列予測は、金融、交通管理、エネルギー、医療など様々な分野で重要な役割を果たしている。
いくつかの方法は、注意やミキサーのようなメカニズムを利用して、チャネル相関をキャプチャすることでこの問題に対処する。
本稿では,効率的なモデルであるSOFTS(Series-cOre Fused Time Series forecaster)を提案する。
論文 参考訳(メタデータ) (2024-04-22T14:06:35Z) - Channel Vision Transformers: An Image Is Worth 1 x 16 x 16 Words [7.210982964205077]
Vision Transformer (ViT) は現代のコンピュータビジョンにおいて強力なアーキテクチャとして登場した。
しかし、顕微鏡や衛星画像などの特定の撮像分野への応用は、ユニークな課題を呈している。
本稿では、入力チャネル間の推論を強化するViTアーキテクチャの修正を提案する。
論文 参考訳(メタデータ) (2023-09-28T02:20:59Z) - Channel-wise Knowledge Distillation for Dense Prediction [73.99057249472735]
本稿では,学生ネットワークと教師ネットワークのチャンネルワイズ機能について提案する。
様々なネットワーク構造を持つ3つのベンチマークにおいて、一貫して優れた性能を実現している。
論文 参考訳(メタデータ) (2020-11-26T12:00:38Z) - Channel Interaction Networks for Fine-Grained Image Categorization [61.095320862647476]
微妙なクラス間差のため、きめ細かい画像分類は困難である。
本稿では,チャネル・インタラクション・ネットワーク(CIN)を提案する。
我々のモデルは、多段階のトレーニングやテストを必要とせずに、エンドツーエンドで効率的にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-03-11T11:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。