論文の概要: SViTT-Ego: A Sparse Video-Text Transformer for Egocentric Video
- arxiv url: http://arxiv.org/abs/2406.09462v1
- Date: Thu, 13 Jun 2024 03:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:44:16.391325
- Title: SViTT-Ego: A Sparse Video-Text Transformer for Egocentric Video
- Title(参考訳): SViTT-Ego:エゴセントリックビデオのためのスパースビデオテキスト変換器
- Authors: Hector A. Valdez, Kyle Min, Subarna Tripathi,
- Abstract要約: SViTT-Egoは,エッジとノードのスペーシングを統合した,最初のスパースなエゴセントリックなビデオテキストトランスフォーマーモデルである。
SViTT-Ego は LAVILA に比べて EgoMCQ の精度が 2.8% 向上している。
- 参考スコア(独自算出の注目度): 11.198924693073353
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pretraining egocentric vision-language models has become essential to improving downstream egocentric video-text tasks. These egocentric foundation models commonly use the transformer architecture. The memory footprint of these models during pretraining can be substantial. Therefore, we pretrain SViTT-Ego, the first sparse egocentric video-text transformer model integrating edge and node sparsification. We pretrain on the EgoClip dataset and incorporate the egocentric-friendly objective EgoNCE, instead of the frequently used InfoNCE. Most notably, SViTT-Ego obtains a +2.8% gain on EgoMCQ (intra-video) accuracy compared to LAVILA large, with no additional data augmentation techniques other than standard image augmentations, yet pretrainable on memory-limited devices.
- Abstract(参考訳): エゴセントリックな視覚言語モデルの事前学習は、下流のエゴセントリックなビデオテキストタスクを改善するために欠かせないものとなっている。
これらのエゴセントリック基盤モデルは、一般的にトランスフォーマーアーキテクチャを使用する。
プレトレーニング中のこれらのモデルのメモリフットプリントは、かなり大きい。
そこで我々は、エッジとノードスペーシングを統合した最初のスパース・エゴセントリックなビデオテキスト・トランスフォーマモデルであるSViTT-Egoを事前訓練する。
頻繁に使用されるInfoNCEの代わりに、EgoClipデータセットを事前トレーニングし、エゴセントリックな目的であるEgoNCEを組み込む。
SViTT-Egoは、LAVILAに比べてEgoMCQ(イントラビデオ)の精度が2.8%向上し、標準画像の拡張以外の追加データ拡張技術はない。
関連論文リスト
- EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the
Backbone [67.13773226242242]
ビデオ言語事前学習は、様々なビジョンや言語タスクに一般化することができる。
ビデオ言語事前学習フレームワークは、個別のビデオエンコーダと言語エンコーダを使用し、微調整時にのみタスク固有のクロスモーダル情報を学ぶ。
新たな世代のエゴセントリックなビデオ言語事前訓練は、ビデオと言語のバックボーンに直接クロスモーダル融合を組み込む。
論文 参考訳(メタデータ) (2023-07-11T17:50:15Z) - EgoViT: Pyramid Video Transformer for Egocentric Action Recognition [18.05706639179499]
手と物体の相互作用を捉えることは、自我中心の動画から人間の行動を自律的に検出する上で重要である。
エゴセントリックなアクション認識のための動的クラストークン生成器を備えたピラミッドビデオ変換器を提案する。
論文 参考訳(メタデータ) (2023-03-15T20:33:50Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。