論文の概要: DAM: Dynamic Adapter Merging for Continual Video QA Learning
- arxiv url: http://arxiv.org/abs/2403.08755v1
- Date: Wed, 13 Mar 2024 17:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:07:13.162680
- Title: DAM: Dynamic Adapter Merging for Continual Video QA Learning
- Title(参考訳): DAM: 連続ビデオQA学習のための動的アダプタマージ
- Authors: Feng Cheng, Ziyang Wang, Yi-Lin Sung, Yan-Bo Lin, Mohit Bansal, Gedas
Bertasius
- Abstract要約: 連続的なビデオ質問応答(VidQA)学習のためのパラメータ効率のよい手法を提案する。
提案手法では,(i)壊滅的忘れを軽減し,(ii)継続的に到着するデータセットへの効率的な適応を可能にし,(iv)類似したデータセットドメイン間の知識共有を可能にする。
我々のDAMモデルは、さまざまなドメインにまたがる6つのVidQAデータセットに対する1.9%の忘れ込みを示しながら、最先端の継続的学習アプローチを9.1%向上させています。
- 参考スコア(独自算出の注目度): 70.39409937771103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a parameter-efficient method for continual video
question-answering (VidQA) learning. Our method, named DAM, uses the proposed
Dynamic Adapter Merging to (i) mitigate catastrophic forgetting, (ii) enable
efficient adaptation to continually arriving datasets, (iii) handle inputs from
unknown datasets during inference, and (iv) enable knowledge sharing across
similar dataset domains. Given a set of continually streaming VidQA datasets,
we sequentially train dataset-specific adapters for each dataset while freezing
the parameters of a large pretrained video-language backbone. During inference,
given a video-question sample from an unknown domain, our method first uses the
proposed non-parametric router function to compute a probability for each
adapter, reflecting how relevant that adapter is to the current video-question
input instance. Subsequently, the proposed dynamic adapter merging scheme
aggregates all the adapter weights into a new adapter instance tailored for
that particular test sample to compute the final VidQA prediction, mitigating
the impact of inaccurate router predictions and facilitating knowledge sharing
across domains. Our DAM model outperforms prior state-of-the-art continual
learning approaches by 9.1% while exhibiting 1.9% less forgetting on 6 VidQA
datasets spanning various domains. We further extend DAM to continual image
classification and image QA and outperform prior methods by a large margin. The
code is publicly available at: https://github.com/klauscc/DAM
- Abstract(参考訳): 連続的なビデオ質問応答(VidQA)学習のためのパラメータ効率のよい手法を提案する。
DAMと名付けられた本手法では,動的アダプタマージ方式を提案する。
一 破滅的な忘れを和らげる
(ii) 継続的に到着するデータセットへの効率的な適応を可能にする。
三 推論中に未知のデータセットからの入力を処理し、
(iv)類似のデータセットドメイン間の知識共有を可能にする。
VidQAデータセットを継続的にストリーミングすると、データセットごとにデータセット固有のアダプタを順次トレーニングし、トレーニング済みの大規模なビデオ言語バックボーンのパラメータを凍結します。
提案手法は,未知領域からのビデオ検索サンプルを推定する際に,まず提案した非パラメトリックルータ関数を用いて各アダプタの確率を計算し,そのアダプタが現在のビデオ検索入力インスタンスとどの程度関係があるかを考察する。
その後、提案した動的アダプタマージスキームは、全てのアダプタ重みを特定のテストサンプルに適した新しいアダプタインスタンスに集約し、最終的なVidQA予測を計算し、不正確なルータ予測の影響を緩和し、ドメイン間の知識共有を容易にする。
我々のDAMモデルは、さまざまなドメインにまたがる6つのVidQAデータセットに対する1.9%の忘れ込みを示しながら、最先端の継続的学習アプローチを9.1%向上させています。
さらにDAMを連続的な画像分類と画像QAに拡張し、先行手法よりも大きなマージンで性能を向上する。
コードは、https://github.com/klauscc/DAMで公開されている。
関連論文リスト
- Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Object-based (yet Class-agnostic) Video Domain Adaptation [78.34712426922519]
我々はODAPT(Object-based (yet Class-Agnostic) Video Domain Adaptation)を提案する。
ODAPTは、既存のアクション認識システムを新しいドメインに適応するための、シンプルで効果的なフレームワークである。
我々のモデルは、Epic-Kitchensのキッチン間で適応する場合の+6.5の増加と、Epic-KitchensとEGTEAデータセット間の適応率の+3.1の増加を実現している。
論文 参考訳(メタデータ) (2023-11-29T01:17:38Z) - Test-Time Adaptation for Point Cloud Upsampling Using Meta-Learning [17.980649681325406]
本稿では,点群アップサンプリングのモデル一般性を高めるためのテスト時間適応手法を提案する。
提案手法はメタラーニングを利用してテスト時間適応のためのネットワークパラメータを明示的に学習する。
我々のフレームワークは汎用的であり、既存のバックボーンネットワークをポイントクラウドのアップサンプリングにプラグイン・アンド・プレイで適用することができる。
論文 参考訳(メタデータ) (2023-08-31T06:44:59Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Parameter-Efficient Sparse Retrievers and Rerankers using Adapters [4.9545244468634655]
本研究では,スパースレトリバーであるSPLADEのアダプタについて検討する。
また、クロスドメインBEIRデータセットとTripClickのアダプタにより、ニューラルネットワークのドメイン適応にも対処する。
論文 参考訳(メタデータ) (2023-03-23T12:34:30Z) - Back to the Source: Diffusion-Driven Test-Time Adaptation [77.4229736436935]
テスト時間適応はテスト入力を利用し、シフトしたターゲットデータ上でテストした場合、ソースデータに基づいてトレーニングされたモデルの精度を向上させる。
代わりに、生成拡散モデルを用いて、すべてのテスト入力をソース領域に向けて投影することで、ターゲットデータを更新する。
論文 参考訳(メタデータ) (2022-07-07T17:14:10Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。