論文の概要: Rethinking Image-to-Video Adaptation: An Object-centric Perspective
- arxiv url: http://arxiv.org/abs/2407.06871v1
- Date: Tue, 9 Jul 2024 13:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 17:47:35.273661
- Title: Rethinking Image-to-Video Adaptation: An Object-centric Perspective
- Title(参考訳): 画像から映像への適応を再考する:オブジェクト中心の視点
- Authors: Rui Qian, Shuangrui Ding, Dahua Lin,
- Abstract要約: 本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
- 参考スコア(独自算出の注目度): 61.833533295978484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-video adaptation seeks to efficiently adapt image models for use in the video domain. Instead of finetuning the entire image backbone, many image-to-video adaptation paradigms use lightweight adapters for temporal modeling on top of the spatial module. However, these attempts are subject to limitations in efficiency and interpretability. In this paper, we propose a novel and efficient image-to-video adaptation strategy from the object-centric perspective. Inspired by human perception, which identifies objects as key components for video understanding, we integrate a proxy task of object discovery into image-to-video transfer learning. Specifically, we adopt slot attention with learnable queries to distill each frame into a compact set of object tokens. These object-centric tokens are then processed through object-time interaction layers to model object state changes across time. Integrated with two novel object-level losses, we demonstrate the feasibility of performing efficient temporal reasoning solely on the compressed object-centric representations for video downstream tasks. Our method achieves state-of-the-art performance with fewer tunable parameters, only 5\% of fully finetuned models and 50\% of efficient tuning methods, on action recognition benchmarks. In addition, our model performs favorably in zero-shot video object segmentation without further retraining or object annotations, proving the effectiveness of object-centric video understanding.
- Abstract(参考訳): 画像から映像への適応は、ビデオ領域で使用される画像モデルを効率的に適応させようとする。
画像のバックボーン全体を微調整する代わりに、多くの画像から映像への適応パラダイムは空間モジュール上の時間的モデリングに軽量なアダプタを使用する。
しかし、これらの試みは効率と解釈可能性の制限を受ける。
本稿では,オブジェクト中心の視点から,新しい画像から映像への適応戦略を提案する。
物体を映像理解の鍵となる要素として認識する人間の知覚に触発され,物体発見のプロキシタスクを画像から映像への伝達学習に統合する。
具体的には、学習可能なクエリによるスロットアテンションを採用して、各フレームをコンパクトなオブジェクトトークンセットに蒸留する。
これらのオブジェクト中心のトークンは、時間にわたってオブジェクトの状態変化をモデル化するために、オブジェクト時インタラクションレイヤを通して処理されます。
2つの新しいオブジェクトレベルの損失と統合して、ビデオ下流タスクの圧縮されたオブジェクト中心表現にのみ、効率的な時間的推論が実現可能であることを示す。
提案手法は, 動作認識ベンチマークにおいて, 調整可能なパラメータが少なく, 完全に調整されたモデルの5倍, 効率的なチューニング手法の50倍の精度で, 最先端性能を実現する。
さらに,本モデルでは,再トレーニングやオブジェクトアノテーションを伴わずに,ゼロショットビデオオブジェクトセグメンテーションにおいて良好に動作し,オブジェクト中心の映像理解の有効性を実証する。
関連論文リスト
- Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention [29.62044843067169]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文 参考訳(メタデータ) (2024-01-25T04:39:48Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Identity-Consistent Aggregation for Video Object Detection [21.295859014601334]
ビデオオブジェクト検出(VID)では、ビデオからのリッチな時間的コンテキストを活用して、各フレーム内のオブジェクト表現を強化するのが一般的である。
ClipVID(ClipVID)は,微粒化と恒常性を考慮した時間的コンテキストのマイニングに特化して設計されたID一貫性アグリゲーション層を備えたVIDモデルである。
ImageNet VIDデータセット上でのSOTA(State-of-the-art)性能(84.7% mAP)は,従来のSOTAよりも約7倍高速(39.3 fps)で動作している。
論文 参考訳(メタデータ) (2023-08-15T12:30:22Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Patch-based Object-centric Transformers for Efficient Video Generation [71.55412580325743]
本稿では,新しい領域ベースビデオ生成アーキテクチャであるPatch-based Object-centric Video Transformer(POVT)を提案する。
圧縮ビデオの離散遅延空間上の自己回帰変換器を用いて、ビデオ予測における先行作業を構築した。
オブジェクト中心表現の圧縮性の向上により、より長い水平時間情報に対してオブジェクト情報のみにアクセスできるようにすることで、トレーニング効率を向上させることができる。
論文 参考訳(メタデータ) (2022-06-08T16:29:59Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。