論文の概要: Video OWL-ViT: Temporally-consistent open-world localization in video
- arxiv url: http://arxiv.org/abs/2308.11093v1
- Date: Tue, 22 Aug 2023 00:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 19:37:44.697906
- Title: Video OWL-ViT: Temporally-consistent open-world localization in video
- Title(参考訳): Video OWL-ViT: ビデオにおける時間的に一貫性のあるオープンワールドローカライゼーション
- Authors: Georg Heigold, Matthias Minderer, Alexey Gritsenko, Alex Bewley,
Daniel Keysers, Mario Lu\v{c}i\'c, Fisher Yu, Thomas Kipf
- Abstract要約: 学習済みのオープンワールドイメージモデルをビデオのローカライズに適応させるアーキテクチャとトレーニングレシピを提案する。
OWL-ViTオープン語彙検出モデルを用いて,オープンワールドモデルの転送に成功したことを示す。
我々のモデルはビデオデータでエンドツーエンドのトレーニングが可能であり、トラッキング・バイ・検出ベースラインに比べて時間的一貫性が向上している。
- 参考スコア(独自算出の注目度): 32.63495573280096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an architecture and a training recipe that adapts pre-trained
open-world image models to localization in videos. Understanding the open
visual world (without being constrained by fixed label spaces) is crucial for
many real-world vision tasks. Contrastive pre-training on large image-text
datasets has recently led to significant improvements for image-level tasks.
For more structured tasks involving object localization applying pre-trained
models is more challenging. This is particularly true for video tasks, where
task-specific data is limited. We show successful transfer of open-world models
by building on the OWL-ViT open-vocabulary detection model and adapting it to
video by adding a transformer decoder. The decoder propagates object
representations recurrently through time by using the output tokens for one
frame as the object queries for the next. Our model is end-to-end trainable on
video data and enjoys improved temporal consistency compared to
tracking-by-detection baselines, while retaining the open-world capabilities of
the backbone detector. We evaluate our model on the challenging TAO-OW
benchmark and demonstrate that open-world capabilities, learned from
large-scale image-text pre-training, can be transferred successfully to
open-world localization across diverse videos.
- Abstract(参考訳): 学習済みのオープンワールドイメージモデルをビデオのローカライズに適応させるアーキテクチャとトレーニングレシピを提案する。
オープンな視覚世界を理解する(固定ラベル空間に制約されない)ことは、多くの現実世界の視覚タスクにとって不可欠である。
大規模な画像テキストデータセットでのコントラスト事前トレーニングは、最近画像レベルのタスクを大幅に改善した。
事前訓練されたモデルを適用するオブジェクトローカライゼーションを含むより構造化されたタスクは、より難しい。
これは特に、タスク固有のデータが制限されたビデオタスクに当てはまる。
OWL-ViTオープンボキャブラリ検出モデル上に構築し,トランスフォーマデコーダを追加してビデオに適応することで,オープンワールドモデルの転送に成功したことを示す。
デコーダは、あるフレームの出力トークンを次のフレームのオブジェクトクエリとして使用することにより、オブジェクト表現を時間を通して繰り返し伝搬する。
私たちのモデルはビデオデータ上でエンドツーエンドでトレーニング可能で、トラッキングバイ検出のベースラインと比較して時間的一貫性が向上すると同時に、バックボーン検出器のオープンワールド機能を保持しています。
我々は,TAO-OWベンチマークを用いて,大規模な画像テキスト事前学習から学習したオープンワールド機能を,多様なビデオ間のオープンワールドローカライゼーションにうまく移行できることを実証した。
関連論文リスト
- General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - iBoot: Image-bootstrapped Self-Supervised Video Representation Learning [45.845595749486215]
ビデオデータセットは通常、画像データセットほど大きくない。
本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。
提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-16T17:42:48Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。