Fugu-MT 論文翻訳(概要): Minimal Interaction Edge Tuning: A New Paradigm for Visual Adaptation

論文の概要: Minimal Interaction Edge Tuning: A New Paradigm for Visual Adaptation

arxiv url: http://arxiv.org/abs/2406.17559v1
Date: Tue, 25 Jun 2024 13:54:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 14:10:33.486776
Title: Minimal Interaction Edge Tuning: A New Paradigm for Visual Adaptation
Title（参考訳）: 最小インタラクションエッジチューニング: ビジュアル適応のための新しいパラダイム
Authors: Ningyuan Tang, Minghao Fu, Jianxin Wu,
Abstract要約: 我々は、エッジチューニングと呼ばれる新しいビジュアル適応パラダイムを探求し、大規模な事前訓練されたモデルを、強力なクラウドサーバ上で動作するスタンドアロンの機能抽出器として扱う。この微調整は、少ない計算資源を必要とする小さなネットワークを持つエッジデバイス上で実行される。そこで本研究では,事前学習したモデルから得られた中間的特徴の総和が最小限の情報伝達と高適応性を有することを示す。
参考スコア（独自算出の注目度）: 11.656632975033476
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid scaling of large vision pretrained models makes fine-tuning tasks more and more difficult on edge devices with low computational resources. We explore a new visual adaptation paradigm called edge tuning, which treats large pretrained models as standalone feature extractors that run on powerful cloud servers. The fine-tuning carries out on edge devices with small networks which require low computational resources. Existing methods that are potentially suitable for our edge tuning paradigm are discussed. But, three major drawbacks hinder their application in edge tuning: low adaptation capability, large adapter network, and high information transfer overhead. To address these issues, we propose Minimal Interaction Edge Tuning, or MIET, which reveals that the sum of intermediate features from pretrained models not only has minimal information transfer but also has high adaptation capability. With a lightweight attention-based adaptor network, MIET achieves information transfer efficiency, parameter efficiency, computational and memory efficiency, and at the same time demonstrates competitive results on various visual adaptation benchmarks.
Abstract（参考訳）: 大規模ビジョン事前学習モデルの迅速なスケーリングにより、計算資源の少ないエッジデバイスでは、微調整タスクがますます困難になる。我々は、エッジチューニングと呼ばれる新しいビジュアル適応パラダイムを探求し、大規模な事前訓練されたモデルを、強力なクラウドサーバ上で動作するスタンドアロンの機能抽出器として扱う。この微調整は、少ない計算資源を必要とする小さなネットワークを持つエッジデバイス上で実行される。本稿では,エッジチューニングパラダイムに適した既存手法について論じる。しかし、エッジチューニングにおける3つの大きな欠点は、低い適応能力、大きなアダプタネットワーク、高い情報転送オーバーヘッドである。これらの問題に対処するため,MIET (Minimal Interaction Edge Tuning) を提案する。軽量な注目型アダプタネットワークにより、MIETは情報伝達効率、パラメータ効率、計算およびメモリ効率を達成し、同時に様々な視覚適応ベンチマークで競合結果を示す。

関連論文リスト

Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文参考訳（メタデータ） (2025-03-17T08:37:22Z)
Memory Efficient Transformer Adapter for Dense Predictions [42.413108132475855]
本稿では,メモリ効率を向上し,メモリ消費を低減できるメモリ効率の良いViTアダプタMETAを提案する。提案するブロック内では、モデルの頻繁な再形成操作を減らすために、断面形状の自己注意が使用される。 METAは予測される品質を大幅に向上し、新しい最先端の精度効率トレードオフを実現している。
論文参考訳（メタデータ） (2025-02-04T03:19:33Z)
RECAST: Reparameterized, Compact weight Adaptation for Sequential Tasks [16.512587987753967]
RECASTはタスク固有のトレーニング可能なパラメータを50未満に劇的に削減する新しい手法である。本稿では,RECASTが様々なスケール,アーキテクチャ,パラメータ空間において,最先端の技術を最大3%向上させることを示す。
論文参考訳（メタデータ） (2024-11-25T19:08:38Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文参考訳（メタデータ） (2024-07-09T15:45:04Z)
ReduceFormer: Attention with Tensor Reduction by Summation [4.985969607297595]
注意を払って効率よく最適化されたモデルのファミリーであるReduceeFormerを紹介します。 ReduceFormerは、reduceやement-wise multiplicationといった単純な操作のみを活用するため、アーキテクチャが大幅に単純化され、推論性能が向上した。提案するモデルファミリは,計算資源とメモリ帯域幅が限られているエッジデバイスや,高いスループットを求めるクラウドコンピューティングに適している。
論文参考訳（メタデータ） (2024-06-11T17:28:09Z)
Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文参考訳（メタデータ） (2024-03-03T08:25:04Z)
Mini but Mighty: Finetuning ViTs with Mini Adapters [7.175668563148084]
アダプタの寸法が小さい場合、アダプタは性能が悪くなります。この問題に対処するトレーニングフレームワークMiMiを提案する。本手法は,精度と訓練されたパラメータの最良のトレードオフを見つける上で,既存の手法よりも優れている。
論文参考訳（メタデータ） (2023-11-07T10:41:27Z)
Efficient Adaptation of Large Vision Transformer via Adapter Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文参考訳（メタデータ） (2023-10-10T01:04:15Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Consolidator: Mergeable Adapter with Grouped Connections for Visual Adaptation [53.835365470800916]
視覚変換器の知識を効率よく効果的に伝達する方法を示す。調整可能なパラメータの小さなセットを追加して,事前学習モデルを変更するコンソリケータを提案する。我々のコンソリエータは、0.35%のパラメータで完全な微調整よりも最大7.56の精度で到達できる。
論文参考訳（メタデータ） (2023-04-30T23:59:02Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Tiny-Attention Adapter: Contexts Are More Important Than the Number of Parameters [25.958600375299735]
Adapter-tuningは、トレーニング済みの言語モデルを、少数の新しいパラメータの追加とチューニングによって下流タスクに転送するパラダイムである。本稿では, 極小アテンション, 極小アテンション・アテンション・アテンション・アテンション・アテンションをアダプタとして用いることの有効性について検討する。私たちの小さなアテンションアダプタは、他のすべての位置にある隠された状態に直接条件付けられた各位置の隠された状態を変更することを学習します。
論文参考訳（メタデータ） (2022-10-18T15:20:44Z)
Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文参考訳（メタデータ） (2022-07-28T21:09:31Z)
AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。 AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文参考訳（メタデータ） (2021-12-14T18:56:07Z)
Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文参考訳（メタデータ） (2021-06-07T11:37:03Z)
When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文参考訳（メタデータ） (2021-06-03T02:08:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。