論文の概要: Ego-VPA: Egocentric Video Understanding with Parameter-efficient Adaptation
- arxiv url: http://arxiv.org/abs/2407.19520v1
- Date: Sun, 28 Jul 2024 16:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 17:42:21.047638
- Title: Ego-VPA: Egocentric Video Understanding with Parameter-efficient Adaptation
- Title(参考訳): Ego-VPA:パラメータ効率適応によるエゴセントリックビデオ理解
- Authors: Tz-Ying Wu, Kyle Min, Subarna Tripathi, Nuno Vasconcelos,
- Abstract要約: Ego-VPAは、エゴ中心のビデオタスクに対するパラメータ効率の適応である。
Ego-VPAは、わずか0.84%の学習可能なパラメータで軽量な適応を実現している。
- 参考スコア(独自算出の注目度): 57.38965505987893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video understanding typically requires fine-tuning the large backbone when adapting to new domains. In this paper, we leverage the egocentric video foundation models (Ego-VFMs) based on video-language pre-training and propose a parameter-efficient adaptation for egocentric video tasks, namely Ego-VPA. It employs a local sparse approximation for each video frame/text feature using the basis prompts, and the selected basis prompts are used to synthesize video/text prompts. Since the basis prompts are shared across frames and modalities, it models context fusion and cross-modal transfer in an efficient fashion. Experiments show that Ego-VPA excels in lightweight adaptation (with only 0.84% learnable parameters), largely improving over baselines and reaching the performance of full fine-tuning.
- Abstract(参考訳): ビデオ理解は一般的に、新しいドメインに適応する際に大きなバックボーンを微調整する必要がある。
本稿では,エゴセントリックなビデオ基礎モデル(Ego-VFM)をビデオ言語事前学習に基づいて活用し,エゴセントリックなビデオタスク,すなわちEgo-VPAに対するパラメータ効率の適応を提案する。
ベースプロンプトを使用して、各ビデオフレーム/テキスト機能に局所的なスパース近似を用い、選択したベースプロンプトを使用して、ビデオ/テキストプロンプトを合成する。
ベースプロンプトはフレームとモダリティ間で共有されるので、コンテキスト融合とクロスモーダル転送を効率的な方法でモデル化する。
実験の結果、Ego-VPAは軽量適応(学習可能なパラメータは0.84%しかありません)に優れており、ベースラインよりも大幅に改善され、完全な微調整の性能に到達しています。
関連論文リスト
- Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z) - VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは視覚言語モデル(VLM)のための新しい自己学習パイプラインである
広範囲のマニュアルアノテーションなしで独自のトレーニングデータを生成する。
VideoSAViは、複数のベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。