論文の概要: READ-PVLA: Recurrent Adapter with Partial Video-Language Alignment for
Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling
- arxiv url: http://arxiv.org/abs/2312.06950v1
- Date: Tue, 12 Dec 2023 03:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:36:35.434472
- Title: READ-PVLA: Recurrent Adapter with Partial Video-Language Alignment for
Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling
- Title(参考訳): READ-PVLA:低リソースビデオ言語モデリングにおけるパラメータ効率変換学習のための部分的ビデオ言語アライメント付きリカレントアダプタ
- Authors: Thong Nguyen, Xiaobao Wu, Xinshuai Dong, Khoi Le, Zhiyuan Hu, Cong-Duy
Nguyen, See-Kiong Ng, Luu Anh Tuan
- Abstract要約: トレーニング済みモデルに軽量アダプタを導入し、微調整時にのみ更新する。
既存のアダプタは、ビデオフレームやテキストワード間の固有の時間的関係をキャプチャできない。
本稿では、時間的モデリング機能を実現するために、繰り返し計算を利用する新しいRecurrent Adapter(READ)を提案する。
- 参考スコア(独自算出の注目度): 33.11253005768816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fully fine-tuning pretrained large-scale transformer models has become a
popular paradigm for video-language modeling tasks, such as temporal language
grounding and video-language summarization. With a growing number of tasks and
limited training data, such full fine-tuning approach leads to costly model
storage and unstable training. To overcome these shortcomings, we introduce
lightweight adapters to the pre-trained model and only update them at
fine-tuning time. However, existing adapters fail to capture intrinsic temporal
relations among video frames or textual words. Moreover, they neglect the
preservation of critical task-related information that flows from the raw
video-language input into the adapter's low-dimensional space. To address these
issues, we first propose a novel REcurrent ADapter (READ) that employs
recurrent computation to enable temporal modeling capability. Second, we
propose Partial Video-Language Alignment (PVLA) objective via the use of
partial optimal transport to maintain task-related information flowing into our
READ modules. We validate our READ-PVLA framework through extensive experiments
where READ-PVLA significantly outperforms all existing fine-tuning strategies
on multiple low-resource temporal language grounding and video-language
summarization benchmarks.
- Abstract(参考訳): 完全微調整された大規模トランスフォーマーモデルは、時間的言語接地やビデオ言語要約といったビデオ言語モデリングタスクにおいて一般的なパラダイムとなっている。
タスクの数が増え、トレーニングデータが限られているため、完全な微調整アプローチはコストのかかるモデルストレージと不安定なトレーニングにつながる。
これらの欠点を克服するため、トレーニング済みモデルに軽量アダプタを導入し、微調整時にのみ更新する。
しかし、既存のアダプタは、ビデオフレームやテキストワード間の固有の時間的関係をキャプチャできない。
さらに、生のビデオ言語入力からアダプタの低次元空間に流れる重要なタスク関連情報の保存を無視する。
これらの問題に対処するために、我々はまず、時間的モデリング機能を実現するために繰り返し計算を利用する新しいRecurrent Adapter (READ)を提案する。
第2に,読取モジュールに流入するタスク関連情報を維持するために,部分最適トランスポートを用いた部分映像言語アライメント(pvla)の目標を提案する。
我々はREAD-PVLAフレームワークを広範囲な実験により検証し、READ-PVLAは複数の低リソースの時間的言語グラウンドとビデオ言語要約ベンチマークにおいて既存の微調整戦略を著しく上回っている。
関連論文リスト
- LSTP: Language-guided Spatial-Temporal Prompt Learning for Long-form
Video-Text Understanding [48.83009641950664]
言語誘導型空間確率学習(LSTP)という新しい手法を導入する。
このアプローチでは、時間的情報を利用して関連ビデオコンテンツを効率的に抽出する光フローを予め備えた時間的プロンプトサンプリング(TPS)と、視覚的要素とテキスト的要素間の複雑な空間関係を正確にキャプチャする空間的プロンプトソルバ(SPS)の2つの重要なコンポーネントを特徴とする。
TPSとSPSを協調学習戦略で調和させることで, 計算効率, 時間的理解, 時空間的アライメントを著しく向上させる。
論文 参考訳(メタデータ) (2024-02-25T10:27:46Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。