論文の概要: From Multimodal to Unimodal Attention in Transformers using Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2110.08270v2
- Date: Tue, 19 Oct 2021 04:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 03:50:33.928959
- Title: From Multimodal to Unimodal Attention in Transformers using Knowledge
Distillation
- Title(参考訳): 知識蒸留を用いた変圧器のマルチモーダルから一様注意へ
- Authors: Dhruv Agarwal, Tanay Agrawal, Laura M. Ferrari, Fran\c{c}ois Bremond
- Abstract要約: 本稿では, 変圧器における知識蒸留の概念を初めて導入し, 推論時に1つのモダリティのみを使用する。
最適構成により、最先端の精度を3%向上し、パラメータの数を2.5倍、推論時間を22%削減した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Deep Learning has garnered much interest, and transformers have
triggered novel approaches, thanks to the cross-attention mechanism. Here we
propose an approach to deal with two key existing challenges: the high
computational resource demanded and the issue of missing modalities. We
introduce for the first time the concept of knowledge distillation in
transformers to use only one modality at inference time. We report a full study
analyzing multiple student-teacher configurations, levels at which distillation
is applied, and different methodologies. With the best configuration, we
improved the state-of-the-art accuracy by 3%, we reduced the number of
parameters by 2.5 times and the inference time by 22%. Such
performance-computation tradeoff can be exploited in many applications and we
aim at opening a new research area where the deployment of complex models with
limited resources is demanded.
- Abstract(参考訳): マルチモーダルディープラーニングは多くの関心を集めており、トランスフォーマーはクロスアテンションメカニズムのおかげで新しいアプローチを生み出している。
本稿では,高計算資源要求と欠落モダリティ問題という,既存の2つの課題に対処する手法を提案する。
本稿では, 変圧器における知識蒸留の概念を初めて導入し, 推論時に1つのモダリティのみを使用する。
本報告では,複数の学生・教員構成,蒸留が適用されるレベル,および異なる方法について検討した。
最適構成により、最先端の精度を3%向上し、パラメータの数を2.5倍、推論時間を22%削減した。
このような性能計算のトレードオフは多くのアプリケーションで利用でき、限られたリソースを持つ複雑なモデルの展開が要求される新しい研究領域を開くことを目指している。
関連論文リスト
- When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - VideoAdviser: Video Knowledge Distillation for Multimodal Transfer
Learning [6.379202839994046]
マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。
本稿では,マルチモーダル基本モデルから特定のモーダル基本モデルへ,マルチモーダルなプロンプトのマルチモーダルな知識を伝達するためのビデオ知識蒸留手法であるVideoAdviserを提案する。
本手法は,映像レベルの感情分析と音声視覚検索の2つの課題において評価する。
論文 参考訳(メタデータ) (2023-09-27T08:44:04Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Two-in-one Knowledge Distillation for Efficient Facial Forgery Detection [32.86917848610336]
既存の知識蒸留法では, 二重分岐モデルから単一分岐モデルへの蒸留が困難であることがわかった。
そこで本研究では,大規模な二重ブランチネットワークから小さな単一ブランチネットワークへの情報を円滑にマージ可能な,新しい2-in-one知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-21T04:34:06Z) - Ensemble Transformer for Efficient and Accurate Ranking Tasks: an
Application to Question Answering Systems [99.13795374152997]
本研究では,大きな変圧器のアンサンブルを1つの小さなモデルに蒸留するニューラルネットワークを提案する。
MHSモデルは、入力をエンコードするために使用されるトランスフォーマー層のスタックと、ランキングヘッドのセットの2つのコンポーネントから構成される。
従来の蒸留法とは異なり,本手法では,アンサンブルメンバーの多様性を保ちつつ,個々のモデルを教師として利用している。
論文 参考訳(メタデータ) (2022-01-15T06:21:01Z) - Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。
我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。
最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文 参考訳(メタデータ) (2021-11-23T16:43:49Z) - Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文 参考訳(メタデータ) (2021-09-14T12:53:35Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。