論文の概要: Vision Transformers are Parameter-Efficient Audio-Visual Learners
- arxiv url: http://arxiv.org/abs/2212.07983v1
- Date: Thu, 15 Dec 2022 17:31:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 15:48:42.159576
- Title: Vision Transformers are Parameter-Efficient Audio-Visual Learners
- Title(参考訳): 視覚トランスフォーマーはパラメーター効率のよい視聴覚学習者である
- Authors: Yan-Bo Lin, Yi-Lin Sung, Jie Lei, Mohit Bansal, Gedas Bertasius
- Abstract要約: 本稿では、事前学習したVTをオーディオ視覚タスクに適応させる潜在型オーディオ視覚ハイブリッド(LAVISH)アダプタを提案する。
提案手法は,様々な視覚的タスクにおいて,競争力や性能の向上を実現する。
- 参考スコア(独自算出の注目度): 95.59258503297195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) have achieved impressive results on various
computer vision tasks in the last several years. In this work, we study the
capability of frozen ViTs, pretrained only on visual data, to generalize to
audio-visual data without finetuning any of its original parameters. To do so,
we propose a latent audio-visual hybrid (LAVISH) adapter that adapts pretrained
ViTs to audio-visual tasks by injecting a small number of trainable parameters
into every layer of a frozen ViT. To efficiently fuse visual and audio cues,
our LAVISH adapter uses a small set of latent tokens, which form an attention
bottleneck, thus, eliminating the quadratic cost of standard cross-attention.
Compared to the existing modality-specific audio-visual methods, our approach
achieves competitive or even better performance on various audio-visual tasks
while using fewer tunable parameters and without relying on costly audio
pretraining or external audio encoders. Our code is available at
https://genjib.github.io/project_page/LAVISH/
- Abstract(参考訳): 視覚トランスフォーマー(vits)はここ数年、様々なコンピュータビジョンタスクで印象的な成果を上げてきた。
本研究では,従来のパラメータを微調整することなく,視覚データのみに事前学習した凍結型ViTの音声・視覚データへの一般化能力について検討する。
そこで本研究では,凍結したViTの各層に少数のトレーニング可能なパラメータを注入することにより,事前学習したViTをオーディオ視覚タスクに適用する潜在型オーディオ視覚ハイブリッド(LAVISH)アダプタを提案する。
我々のLAVISHアダプタは、視覚とオーディオを効率的に融合するために、注意ボトルネックとなる小さな潜在トークンセットを使用し、標準的なクロスアテンションの2次コストをなくす。
提案手法は,既存のモータリティ特化型オーディオ・ビジュアル・メソッドと比較して,調整可能なパラメータを少なくし,コストのかかるオーディオプリトレーニングや外部オーディオ・エンコーダに頼ることなく,様々なオーディオ・ビジュアル・タスクの競争力や性能向上を実現している。
私たちのコードはhttps://genjib.github.io/project_page/LAVISH/で利用可能です。
関連論文リスト
- AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation [33.315479764894086]
AV-DiTは,新規かつ効率的な音声・視覚拡散変換器である。
画像のみのデータに基づいて事前訓練された共有DiTバックボーンは、オーディオおよびビデオの生成を容易にする。
AIST++とLandscapeデータセットの実験は、AV-DiTが関節型オーディオ視覚生成において最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-06-11T20:05:58Z) - Siamese Vision Transformers are Scalable Audio-visual Learners [19.916919837694802]
本稿では,AVSiam(Audio-visual siamese Network)を用いて,高能率かつスケーラブルな視覚前訓練を行う。
我々のフレームワークは、単一の共有視覚変換器のバックボーンを使用して、音声および視覚入力を処理する。
音声,視覚,視覚の入力を単一の共有VTバックボーンで頑健に処理できる。
論文 参考訳(メタデータ) (2024-03-28T17:52:24Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AVSegFormer: Audio-Visual Segmentation with Transformer [42.24135756439358]
ビデオ中の音声オブジェクトの特定とセグメント化を目的とした,AVS(Audio-visual segmentation)タスクが導入された。
このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。
本稿では,トランスフォーマーアーキテクチャを活用するAVSegFormerを提案する。
論文 参考訳(メタデータ) (2023-07-03T16:37:10Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - Audiomer: A Convolutional Transformer for Keyword Spotting [0.0]
本稿では,1D Residual NetworksとPerformer Attentionを組み合わせることで,キーワードスポッティングにおける最先端のパフォーマンスを実現するAudiomerを紹介する。
Audiomerは、計算制約のあるデバイスへのデプロイと、より小さなデータセットでのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-09-21T15:28:41Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。