論文の概要: X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization
- arxiv url: http://arxiv.org/abs/2403.19811v1
- Date: Thu, 28 Mar 2024 19:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 17:13:56.543079
- Title: X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization
- Title(参考訳): X-MIC:Egocentric Action Generalizationのためのクロスモーダルインスタンス条件
- Authors: Anna Kukleva, Fadime Sener, Edoardo Remelli, Bugra Tekin, Eric Sauser, Bernt Schiele, Shugao Ma,
- Abstract要約: 我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
- 参考スコア(独自算出の注目度): 56.75782714530429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lately, there has been growing interest in adapting vision-language models (VLMs) to image and third-person video classification due to their success in zero-shot recognition. However, the adaptation of these models to egocentric videos has been largely unexplored. To address this gap, we propose a simple yet effective cross-modal adaptation framework, which we call X-MIC. Using a video adapter, our pipeline learns to align frozen text embeddings to each egocentric video directly in the shared embedding space. Our novel adapter architecture retains and improves generalization of the pre-trained VLMs by disentangling learnable temporal modeling and frozen visual encoder. This results in an enhanced alignment of text embeddings to each egocentric video, leading to a significant improvement in cross-dataset generalization. We evaluate our approach on the Epic-Kitchens, Ego4D, and EGTEA datasets for fine-grained cross-dataset action generalization, demonstrating the effectiveness of our method. Code is available at https://github.com/annusha/xmic
- Abstract(参考訳): 近年、ゼロショット認識の成功により、視覚言語モデル(VLM)を画像分類や第三者ビデオ分類に適用することへの関心が高まっている。
しかし、これらのモデルがエゴセントリックなビデオに適応することは、ほとんど探索されていない。
このギャップに対処するために、我々はX-MICと呼ぶ、単純だが効果的なクロスモーダル適応フレームワークを提案する。
ビデオアダプタを使用して、パイプラインは凍結したテキスト埋め込みを、共有埋め込み空間内で、各エゴセントリックなビデオに直接アライメントすることを学ぶ。
我々の新しいアダプタアーキテクチャは、学習可能な時間モデルと凍結したビジュアルエンコーダを混在させることにより、事前訓練されたVLMの一般化を維持・改善する。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
Epic-Kitchens, Ego4D, EGTEAデータセットへのアプローチを評価し, 提案手法の有効性を実証した。
コードはhttps://github.com/annusha/xmicで入手できる。
関連論文リスト
- Ego-VPA: Egocentric Video Understanding with Parameter-efficient Adaptation [57.38965505987893]
Ego-VPAは、エゴ中心のビデオタスクに対するパラメータ効率の適応である。
Ego-VPAは、わずか0.84%の学習可能なパラメータで軽量な適応を実現している。
論文 参考訳(メタデータ) (2024-07-28T16:01:32Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Object-based (yet Class-agnostic) Video Domain Adaptation [78.34712426922519]
我々はODAPT(Object-based (yet Class-Agnostic) Video Domain Adaptation)を提案する。
ODAPTは、既存のアクション認識システムを新しいドメインに適応するための、シンプルで効果的なフレームワークである。
我々のモデルは、Epic-Kitchensのキッチン間で適応する場合の+6.5の増加と、Epic-KitchensとEGTEAデータセット間の適応率の+3.1の増加を実現している。
論文 参考訳(メタデータ) (2023-11-29T01:17:38Z) - Text-image Alignment for Diffusion-based Perception [12.98777134700767]
拡散モデルは、印象的なテキスト-画像合成機能を備えた生成モデルである。
視覚タスクに拡散バックボーンを適用する際に、プロンプトインターフェースをどのように使うかは不明確である。
自動生成キャプションによってテキスト画像のアライメントが向上し、モデルのクロスアテンションマップが大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-29T05:16:41Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。