論文の概要: Video Recognition in Portrait Mode
- arxiv url: http://arxiv.org/abs/2312.13746v1
- Date: Thu, 21 Dec 2023 11:30:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:20:05.640441
- Title: Video Recognition in Portrait Mode
- Title(参考訳): ポートレートモードにおける映像認識
- Authors: Mingfei Han, Linjie Yang, Xiaojie Jin, Jiashi Feng, Xiaojun Chang,
Heng Wang
- Abstract要約: ポートレートモードビデオ認識のための最初のデータセットであるPortraitMode-400を開発した。
画像フォーマット(画像モードとランドスケープモード)が、異なるフォーマットによる認識精度と空間バイアスに与える影響を包括的に分析する。
本研究では,データ拡張の選択,評価手順,時間的情報の重要性,音声モダリティの役割など,ポートレートモード映像認識の重要な側面を探求する実験を設計する。
- 参考スコア(独自算出の注目度): 98.3393666122704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The creation of new datasets often presents new challenges for video
recognition and can inspire novel ideas while addressing these challenges.
While existing datasets mainly comprise landscape mode videos, our paper seeks
to introduce portrait mode videos to the research community and highlight the
unique challenges associated with this video format. With the growing
popularity of smartphones and social media applications, recognizing portrait
mode videos is becoming increasingly important. To this end, we have developed
the first dataset dedicated to portrait mode video recognition, namely
PortraitMode-400. The taxonomy of PortraitMode-400 was constructed in a
data-driven manner, comprising 400 fine-grained categories, and rigorous
quality assurance was implemented to ensure the accuracy of human annotations.
In addition to the new dataset, we conducted a comprehensive analysis of the
impact of video format (portrait mode versus landscape mode) on recognition
accuracy and spatial bias due to the different formats. Furthermore, we
designed extensive experiments to explore key aspects of portrait mode video
recognition, including the choice of data augmentation, evaluation procedure,
the importance of temporal information, and the role of audio modality.
Building on the insights from our experimental results and the introduction of
PortraitMode-400, our paper aims to inspire further research efforts in this
emerging research area.
- Abstract(参考訳): 新しいデータセットの作成は、しばしばビデオ認識の新しい課題を示し、これらの課題に対処しながら、新しいアイデアを刺激することができる。
既存のデータセットは主にランドスケープモードのビデオで構成されているが、本稿は研究コミュニティにポートレートモードビデオを導入し、このビデオフォーマットに関連するユニークな課題を強調している。
スマートフォンやソーシャルメディアアプリケーションの人気が高まる中、ポートレートモード動画の認識がますます重要になっている。
そこで我々は,ポートレートモードビデオ認識のための最初のデータセット,portalmode-400を開発した。
PortraitMode-400の分類は、細粒度400のカテゴリからなるデータ駆動方式で構築され、人間のアノテーションの精度を確保するために厳密な品質保証が実施された。
新たなデータセットに加えて,異なるフォーマットによる認識精度と空間バイアスに対する映像フォーマット(画像モードと風景モード)の影響を包括的に分析した。
さらに,データ拡張の選択,評価手順,時間情報の重要性,音声モダリティの役割など,ポートレートモード映像認識の重要な側面を探索するために,広範な実験を行った。
実験結果から得られた知見とPortraitMode-400の導入を踏まえ,本研究分野におけるさらなる研究活動の促進を目的とする。
関連論文リスト
- CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [70.72471396940145]
カスタマイズされたテキスト・ツー・ビデオ生成は、テキストプロンプトと主題参照によってガイドされる高品質なビデオを生成することを目的としている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - Knowledge-enhanced Multi-perspective Video Representation Learning for
Scene Recognition [33.800842679024164]
我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。
既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。
複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T04:37:10Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - EasyPortrait -- Face Parsing and Portrait Segmentation Dataset [79.16635054977068]
リアルタイムの背景除去や顔の美化といったコンピュータビジョンベースの機能を実現することで,ビデオ会議アプリが機能的になった。
これらのタスクを同時に行うために、新しいデータセット、EasyPortraitを作成します。
13,705人のユニークなユーザーと9つのクラスに分かれたきめ細かいセグメンテーションマスクを備えた、ビデオ会議のシナリオを繰り返す4万枚の屋内写真が含まれている。
論文 参考訳(メタデータ) (2023-04-26T12:51:34Z) - Marine Video Kit: A New Marine Video Dataset for Content-based Analysis
and Retrieval [10.526705651297146]
本稿では,水中環境における移動カメラから撮影したワンショット映像に着目した。
新しいMarine Video Kitの最初のシャードは、ビデオ検索やその他のコンピュータビジョンの課題に役立ちます。
論文 参考訳(メタデータ) (2022-09-23T10:57:50Z) - Perceptual Quality Assessment of Virtual Reality Videos in the Wild [50.33693148440248]
既存のパノラマビデオデータベースでは、合成歪みのみを考慮し、一定の視聴条件を仮定し、サイズに制限がある。
我々はVRVQW(VR Video Quality in the Wild)データベースを構築した。
我々は,2つの異なる視聴条件下で,139ドルの被験者から,スキャンパスと品質スコアを記録するための正式な心理物理実験を行った。
論文 参考訳(メタデータ) (2022-06-13T02:22:57Z) - ViSeRet: A simple yet effective approach to moment retrieval via
fine-grained video segmentation [6.544437737391409]
本稿では,ICCV VALUE Challenge 2021のビデオ検索における第1位ソリューションを提案する。
本稿では,2つのビデオテキスト検索タスクを共同で行うための,シンプルかつ効果的な手法を提案する。
4つのデータセットで新しい最先端のパフォーマンスを実現するアンサンブルモデルを作成します。
論文 参考訳(メタデータ) (2021-10-11T10:39:13Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。