論文の概要: Spatio-Temporal Video Representation Learning for AI Based Video
Playback Style Prediction
- arxiv url: http://arxiv.org/abs/2110.01015v1
- Date: Sun, 3 Oct 2021 14:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 05:00:38.598394
- Title: Spatio-Temporal Video Representation Learning for AI Based Video
Playback Style Prediction
- Title(参考訳): AIを用いたビデオ再生スタイル予測のための時空間ビデオ表現学習
- Authors: Rishubh Parihar, Gaurav Ramola, Ranajit Saha, Ravi Kini, Aniket Rege,
Sudha Velusamy
- Abstract要約: 動作型分類を用いた物体の動きの理解手法を提案する。
提案した動き型は、現在存在する物体の軌跡に基づいて動画の動作型を予測する。
動画検索において,動作型分類から学習した表現が,映像検索の難易度向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 4.452944123741912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ever-increasing smartphone-generated video content demands intelligent
techniques to edit and enhance videos on power-constrained devices. Most of the
best performing algorithms for video understanding tasks like action
recognition, localization, etc., rely heavily on rich spatio-temporal
representations to make accurate predictions. For effective learning of the
spatio-temporal representation, it is crucial to understand the underlying
object motion patterns present in the video. In this paper, we propose a novel
approach for understanding object motions via motion type classification. The
proposed motion type classifier predicts a motion type for the video based on
the trajectories of the objects present. Our classifier assigns a motion type
for the given video from the following five primitive motion classes: linear,
projectile, oscillatory, local and random. We demonstrate that the
representations learned from the motion type classification generalizes well
for the challenging downstream task of video retrieval. Further, we proposed a
recommendation system for video playback style based on the motion type
classifier predictions.
- Abstract(参考訳): スマートフォンが生み出すビデオコンテンツの増加は、電力制約のあるデバイスでビデオを編集し、拡張するためのインテリジェントな技術を要求する。
アクション認識やローカライゼーションなどのビデオ理解タスクに最適なアルゴリズムのほとんどは、正確な予測を行うために、豊富な時空間表現に依存している。
時空間表現の効果的な学習には,映像中の物体の動きパターンを理解することが重要である。
本稿では,動作型分類による物体の動きの理解のための新しいアプローチを提案する。
提案するモーションタイプ分類器は,映像中の物体の軌跡に基づいて動画のモーションタイプを予測する。
我々の分類器は、以下の5つの原始運動クラス(線形、射影、発振、局所、ランダム)から与えられた動画のモーションタイプを割り当てる。
動作型分類から学習した表現が,映像検索の課題である下流作業に有効であることを示す。
さらに,動作型分類器の予測に基づくビデオ再生スタイルの推薦システムを提案する。
関連論文リスト
- Classification Matters: Improving Video Action Detection with Class-Specific Attention [61.14469113965433]
ビデオアクション検出(VAD)は、アクターを検出し、そのアクションをビデオで分類することを目的としている。
一般的な手法が、分類のための特徴をどう形成するかを分析し、アクター領域の優先順位付けを行う。
本稿では,アクターに対する偏見を減らし,各アクションクラスに関連する文脈に注意を払うことを提案する。
論文 参考訳(メタデータ) (2024-07-29T04:43:58Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - Dynamic Appearance: A Video Representation for Action Recognition with
Joint Training [11.746833714322154]
本稿では,映像中の動きに関連する外観情報を要約した新しい概念である動的外観(DA)を紹介する。
生のビデオデータからダイナミックな外観を抽出する手法を,効率的な映像理解の手段として検討する。
4つの行動認識ベンチマークにおいて、広範囲な実験結果を提供する。
論文 参考訳(メタデータ) (2022-11-23T07:16:16Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - TNT: Text-Conditioned Network with Transductive Inference for Few-Shot
Video Classification [26.12591949900602]
テキストベースのタスクコンディショナーを定式化し、ビデオの特徴を数ショットの学習タスクに適応させる。
本モデルでは,4つの挑戦的ベンチマークを用いて,数発の動画アクション分類における最先端性能を得る。
論文 参考訳(メタデータ) (2021-06-21T15:08:08Z) - Hierarchical Motion Understanding via Motion Programs [23.288517329229943]
動作を高レベルプリミティブの構成として表現する,ニューロシンボリックなプログラムライクな表現であるモーションプログラムを紹介する。
また,人間の動画から自動的に動作プログラムを誘導し,映像合成における動作プログラムを活用するシステムを提案する。
私たちの表現は、ビデオやビデオの予測といった下流のタスクにも役立ち、既成モデルよりも優れています。
論文 参考訳(メタデータ) (2021-04-22T17:49:59Z) - Learning Semantic-Aware Dynamics for Video Prediction [68.04359321855702]
非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。
シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
論文 参考訳(メタデータ) (2021-04-20T05:00:24Z) - Developing Motion Code Embedding for Action Recognition in Videos [5.400294730456784]
動きのベクトル化表現である動き符号(motion codes)と呼ばれる動き埋め込み戦略を提案する。
我々は、視覚的特徴と意味的特徴を組み合わせたディープニューラルネットワークモデルを開発し、運動分類学で見られる特徴を特定し、動画をモーションコードに埋め込みました。
機械学習タスクの機能としての動作符号の可能性を示すために,抽出した特徴を現在の動作認識モデルに統合した。
論文 参考訳(メタデータ) (2020-12-10T03:49:23Z) - MotionSqueeze: Neural Motion Feature Learning for Video Understanding [46.82376603090792]
モーションはビデオを理解する上で重要な役割を担い、ビデオ分類のための最先端のニューラルモデルにはモーション情報が含まれる。
本研究では,光学流の外部および重い計算を内部および軽量な運動特徴学習に置き換える。
提案手法は,アクション認識のための4つの標準ベンチマークにおいて,少ない追加コストで大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2020-07-20T08:30:14Z) - AutoTrajectory: Label-free Trajectory Extraction and Prediction from
Videos using Dynamic Points [92.91569287889203]
軌道抽出と予測のための新しいラベルなしアルゴリズムAutoTrajectoryを提案する。
動画中の移動物体をよりよく捉えるために,ダイナミックポイントを導入する。
ビデオ内の歩行者などの移動物体を表すインスタンスポイントに動的ポイントを集約する。
論文 参考訳(メタデータ) (2020-07-11T08:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。