論文の概要: Video + CLIP Baseline for Ego4D Long-term Action Anticipation
- arxiv url: http://arxiv.org/abs/2207.00579v1
- Date: Fri, 1 Jul 2022 17:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 13:10:54.509871
- Title: Video + CLIP Baseline for Ego4D Long-term Action Anticipation
- Title(参考訳): Ego4D長期活動予測のためのビデオ+CLIPベースライン
- Authors: Srijan Das and Michael S. Ryoo
- Abstract要約: Video + CLIPフレームワークは、CLIPとビデオエンコーダのSlowfastネットワークという、大規模にトレーニング済みのペアイメージテキストモデルを使用している。
両エンコーダから得られる特徴は相補的であり,長期動作予測のタスクにおいて,Ego4Dのベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 50.544635516455116
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this report, we introduce our adaptation of image-text models for
long-term action anticipation. Our Video + CLIP framework makes use of a
large-scale pre-trained paired image-text model: CLIP and a video encoder
Slowfast network. The CLIP embedding provides fine-grained understanding of
objects relevant for an action whereas the slowfast network is responsible for
modeling temporal information within a video clip of few frames. We show that
the features obtained from both encoders are complementary to each other, thus
outperforming the baseline on Ego4D for the task of long-term action
anticipation. Our code is available at
github.com/srijandas07/clip_baseline_LTA_Ego4d.
- Abstract(参考訳): 本稿では,長期的行動予測のための画像テキストモデルの適応について紹介する。
私たちのVideo + CLIPフレームワークは、CLIPとビデオエンコーダSlowfastネットワークという、大規模にトレーニング済みのペアイメージテキストモデルを使用しています。
CLIP埋め込みはアクションに関連するオブジェクトのきめ細かい理解を提供するが、低速ネットワークは、数フレームのビデオクリップ内の時間情報をモデル化する責任がある。
両エンコーダから得られる特徴は相補的であり,長期動作予測のタスクにおいて,Ego4Dのベースラインよりも優れていることを示す。
私たちのコードはgithub.com/srijandas07/clip_baseline_LTA_Ego4dで利用可能です。
関連論文リスト
- PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance [44.08446730529495]
トークン圧縮と命令対応の視覚的特徴集約を同時に実現する新しいプーリング戦略を提案する。
我々のモデルはPPLLaVA(Prompt-guided Pooling LLaVA)と呼ばれる。
論文 参考訳(メタデータ) (2024-11-04T17:50:36Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - A CLIP-Hitchhiker's Guide to Long Video Retrieval [84.36155238161462]
長いビデオ検索のための画像テキストモデルの適応性について検討する。
近年の研究では,CLIPを用いた映像検索における最先端性能が実証されている。
クエリスコーディングによるフレーム埋め込みの重み付き平均値の単純かつ効果的なベースラインは、大きな改善であることがわかった。
論文 参考訳(メタデータ) (2022-05-17T17:26:23Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。