論文の概要: Towards Long-Form Video Understanding
- arxiv url: http://arxiv.org/abs/2106.11310v1
- Date: Mon, 21 Jun 2021 17:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:26:11.234281
- Title: Towards Long-Form Video Understanding
- Title(参考訳): 長文映像理解に向けて
- Authors: Chao-Yuan Wu, Philipp Kr\"ahenb\"uhl
- Abstract要約: 本稿では,大規模データセット上での長文ビデオのモデリングと評価プロトコルの開発を行うフレームワークを提案する。
オブジェクト中心のトランスフォーマーに基づく新しいビデオ認識アーキテクチャは、7つの多様なタスクで大幅に向上する。
- 参考スコア(独自算出の注目度): 7.962725903399016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our world offers a never-ending stream of visual stimuli, yet today's vision
systems only accurately recognize patterns within a few seconds. These systems
understand the present, but fail to contextualize it in past or future events.
In this paper, we study long-form video understanding. We introduce a framework
for modeling long-form videos and develop evaluation protocols on large-scale
datasets. We show that existing state-of-the-art short-term models are limited
for long-form tasks. A novel object-centric transformer-based video recognition
architecture performs significantly better on 7 diverse tasks. It also
outperforms comparable state-of-the-art on the AVA dataset.
- Abstract(参考訳): 私たちの世界は、絶え間ない視覚刺激の流れを提供しますが、今日の視覚システムは、数秒でパターンを正確に認識するだけです。
これらのシステムは現在のことを理解しているが、過去や将来の出来事ではコンテキスト化できない。
本稿では,長大な映像理解について考察する。
本稿では,長文ビデオのモデリングと大規模データセット評価プロトコルの開発を行うフレームワークを提案する。
現状の短期モデルでは長期の作業に制限があることを示す。
オブジェクト中心のトランスフォーマーに基づく新しいビデオ認識アーキテクチャは、7つの多様なタスクで大幅に向上する。
また、AVAデータセットにおいて、同等の最先端をパフォーマンスします。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - MUSTAN: Multi-scale Temporal Context as Attention for Robust Video
Foreground Segmentation [2.2232550112727267]
ビデオフォアグラウンドセグメンテーション(VFS)は、背景からの動作下でオブジェクトをセグメンテーションすることを目的とした重要なコンピュータビジョンタスクである。
現在の手法のほとんどはイメージベースであり、動きの手がかりを無視しながら空間的な手がかりにのみ依存している。
本稿では,映像データからの時間情報と空間的手がかりを利用してOOD性能を向上させる。
論文 参考訳(メタデータ) (2024-02-01T13:47:23Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - Bidirectional Cross-Modal Knowledge Exploration for Video Recognition
with Pre-trained Vision-Language Models [149.1331903899298]
本稿では,双方向の知識を探索するクロスモーダルブリッジを用いた,BIKEと呼ばれる新しいフレームワークを提案する。
本研究では,テキスト・トゥ・ビデオの専門知識を用いて時間的サリエンシをパラメータフリーでキャプチャする時間的概念スポッティング機構を提案する。
我々の最良のモデルは、リリースしたCLIPモデルを使用して、Kinetics-400の挑戦に対して、最先端の精度88.6%を達成する。
論文 参考訳(メタデータ) (2022-12-31T11:36:53Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。