論文の概要: Mixture of Nested Experts: Adaptive Processing of Visual Tokens
- arxiv url: http://arxiv.org/abs/2407.19985v2
- Date: Tue, 30 Jul 2024 17:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 12:20:00.561611
- Title: Mixture of Nested Experts: Adaptive Processing of Visual Tokens
- Title(参考訳): Nested Expertsの混在:ビジュアルトークンの適応処理
- Authors: Gagan Jain, Nidhi Hegde, Aditya Kusupati, Arsha Nagrani, Shyamal Buch, Prateek Jain, Anurag Arnab, Sujoy Paul,
- Abstract要約: Vision Transformer (ViT) ベースのモデルは、固有の冗長性に乗じず、より高い計算コストをもたらす。
本報告では,Nested Experts (Mixture of Nested Experts, MONE) について述べる。
我々は、イメージNet-21K、Kineetics400、Something-v2といった標準画像およびビデオデータセットに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 49.43920770789789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The visual medium (images and videos) naturally contains a large amount of information redundancy, thereby providing a great opportunity for leveraging efficiency in processing. While Vision Transformer (ViT) based models scale effectively to large data regimes, they fail to capitalize on this inherent redundancy, leading to higher computational costs. Mixture of Experts (MoE) networks demonstrate scalability while maintaining same inference-time costs, but they come with a larger parameter footprint. We present Mixture of Nested Experts (MoNE), which utilizes a nested structure for experts, wherein individual experts fall on an increasing compute-accuracy curve. Given a compute budget, MoNE learns to dynamically choose tokens in a priority order, and thus redundant tokens are processed through cheaper nested experts. Using this framework, we achieve equivalent performance as the baseline models, while reducing inference time compute by over two-fold. We validate our approach on standard image and video datasets - ImageNet-21K, Kinetics400, and Something-Something-v2. We further highlight MoNE$'$s adaptability by showcasing its ability to maintain strong performance across different inference-time compute budgets on videos, using only a single trained model.
- Abstract(参考訳): 視覚媒体(画像とビデオ)は、自然に大量の情報冗長性を含み、処理の効率性を活用するための大きな機会を提供する。
Vision Transformer (ViT) ベースのモデルは、大規模なデータレシエーションに効果的にスケールするが、この固有の冗長性に乗じず、計算コストが高くなる。
Mixture of Experts (MoE) ネットワークは、同じ推論時間コストを維持しながらスケーラビリティを示すが、パラメータフットプリントが大きい。
本報告では,Nested Experts (Mixture of Nested Experts, MONE) について述べる。
計算予算が与えられた後、MoNEは優先順位順でトークンを動的に選択することを学び、冗長トークンはより安価なネストされた専門家によって処理される。
このフレームワークを用いて、ベースラインモデルとして同等の性能を達成し、推論時間を2倍以上に短縮する。
我々は、イメージNet-21K、Kineetics400、Something-v2といった標準画像およびビデオデータセットに対するアプローチを検証する。
MoNE$'$sの適応性はさらに強調して、単一のトレーニングモデルのみを使用して、ビデオ上のさまざまな推論時間計算予算にわたって、強力なパフォーマンスを維持する能力を示す。
関連論文リスト
- VICON: Vision In-Context Operator Networks for Multi-Physics Fluid Dynamics Prediction [21.061630022134203]
In-Context Operator Networks (ICON) は、数ショットのインコンテキストアプローチを使用して、異なるタイプのPDEをまたいだ演算子を学習する。
既存の方法は、各データポイントを単一のトークンとして扱い、高密度データを処理する際に計算の非効率さに悩まされる。
本稿では,ビジョン・イン・コンテキスト・オペレーター・ネットワーク(VICON)を提案する。
論文 参考訳(メタデータ) (2024-11-25T03:25:17Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval [1.6874375111244329]
最先端の画像検索システムは、データセットごとに特定のニューラルネットワークをトレーニングする。
オフザシェルフのファンデーションモデルは、データセット固有のモデルに匹敵するパフォーマンスを達成するには不足している。
本稿では,基本モデルの性能を著しく向上するAE-SVC(Strong Variance Constraints)を用いたオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:05:16Z) - M$^2$IST: Multi-Modal Interactive Side-Tuning for Efficient Referring Expression Comprehension [36.01063804442098]
参照式理解(Referring Expression comprehension、REC)は、言語表現に基づいて画像中の対象物を特定する視覚言語タスクである。
PETL法は, 調整可能なパラメータが少なく, 高い性能を示した。
M$2$IST: Multi-Modal Interactive Side-Tuning with M$3$ISAs: Mixture of Multi-Modal Interactive Side-Adapters。
論文 参考訳(メタデータ) (2024-07-01T09:53:53Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - UniMatch: A Unified User-Item Matching Framework for the Multi-purpose
Merchant Marketing [27.459774494479227]
1つのモデルでアイテムレコメンデーションとユーザターゲティングを同時に行うために,統合されたユーザイテムマッチングフレームワークを提案する。
我々のフレームワークは、最先端の手法と比較して大幅に性能が向上し、計算資源や日々のメンテナンスにかかるコストが大幅に削減された。
論文 参考訳(メタデータ) (2023-07-19T13:49:35Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - VA-RED$^2$: Video Adaptive Redundancy Reduction [64.75692128294175]
我々は,入力依存の冗長性低減フレームワークva-red$2$を提案する。
ネットワークの重み付けと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習する。
私たちのフレームワークは、最先端の方法と比較して、計算(FLOP)の20% - 40%$削減を達成します。
論文 参考訳(メタデータ) (2021-02-15T22:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。