Fugu-MT 論文翻訳(概要): Video Recognition in Portrait Mode

論文の概要: Video Recognition in Portrait Mode

arxiv url: http://arxiv.org/abs/2312.13746v1
Date: Thu, 21 Dec 2023 11:30:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 15:20:05.640441
Title: Video Recognition in Portrait Mode
Title（参考訳）: ポートレートモードにおける映像認識
Authors: Mingfei Han, Linjie Yang, Xiaojie Jin, Jiashi Feng, Xiaojun Chang, Heng Wang
Abstract要約: ポートレートモードビデオ認識のための最初のデータセットであるPortraitMode-400を開発した。画像フォーマット(画像モードとランドスケープモード)が、異なるフォーマットによる認識精度と空間バイアスに与える影響を包括的に分析する。本研究では,データ拡張の選択,評価手順,時間的情報の重要性,音声モダリティの役割など,ポートレートモード映像認識の重要な側面を探求する実験を設計する。
参考スコア（独自算出の注目度）: 98.3393666122704
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The creation of new datasets often presents new challenges for video recognition and can inspire novel ideas while addressing these challenges. While existing datasets mainly comprise landscape mode videos, our paper seeks to introduce portrait mode videos to the research community and highlight the unique challenges associated with this video format. With the growing popularity of smartphones and social media applications, recognizing portrait mode videos is becoming increasingly important. To this end, we have developed the first dataset dedicated to portrait mode video recognition, namely PortraitMode-400. The taxonomy of PortraitMode-400 was constructed in a data-driven manner, comprising 400 fine-grained categories, and rigorous quality assurance was implemented to ensure the accuracy of human annotations. In addition to the new dataset, we conducted a comprehensive analysis of the impact of video format (portrait mode versus landscape mode) on recognition accuracy and spatial bias due to the different formats. Furthermore, we designed extensive experiments to explore key aspects of portrait mode video recognition, including the choice of data augmentation, evaluation procedure, the importance of temporal information, and the role of audio modality. Building on the insights from our experimental results and the introduction of PortraitMode-400, our paper aims to inspire further research efforts in this emerging research area.
Abstract（参考訳）: 新しいデータセットの作成は、しばしばビデオ認識の新しい課題を示し、これらの課題に対処しながら、新しいアイデアを刺激することができる。既存のデータセットは主にランドスケープモードのビデオで構成されているが、本稿は研究コミュニティにポートレートモードビデオを導入し、このビデオフォーマットに関連するユニークな課題を強調している。スマートフォンやソーシャルメディアアプリケーションの人気が高まる中、ポートレートモード動画の認識がますます重要になっている。そこで我々は,ポートレートモードビデオ認識のための最初のデータセット,portalmode-400を開発した。 PortraitMode-400の分類は、細粒度400のカテゴリからなるデータ駆動方式で構築され、人間のアノテーションの精度を確保するために厳密な品質保証が実施された。新たなデータセットに加えて,異なるフォーマットによる認識精度と空間バイアスに対する映像フォーマット(画像モードと風景モード)の影響を包括的に分析した。さらに,データ拡張の選択,評価手順,時間情報の重要性,音声モダリティの役割など,ポートレートモード映像認識の重要な側面を探索するために,広範な実験を行った。実験結果から得られた知見とPortraitMode-400の導入を踏まえ,本研究分野におけるさらなる研究活動の促進を目的とする。

関連論文リスト

PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the Wild [164.8093566483583]
本報告では,CVPR 2025と共同で開催されている第4回PVUWチャレンジについて概観する。課題は、複雑なシーンビデオオブジェクトセグメンテーションに焦点を当てたMOSEと、モーションガイドによる言語ベースのビデオセグメンテーションをターゲットとするMeViSの2つのトラックである。
論文参考訳（メタデータ） (2025-04-15T16:02:47Z)
Audio-visual Event Localization on Portrait Mode Short Videos [2.929891500796793]
AVE-PMは、ポートレートモードのショートビデオに特化して設計された最初のAVELデータセットである。最先端のAVEL法は、クロスモード評価において平均18.66%のパフォーマンス低下を被っている。ポートレートモードビデオにおけるAVELの最適前処理レシピと背景音楽の影響について検討する。
論文参考訳（メタデータ） (2025-04-09T13:38:40Z)
Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文参考訳（メタデータ） (2025-01-10T18:59:54Z)
PIV3CAMS: a multi-camera dataset for multiple computer vision problems and its application to novel view-point synthesis [120.4361056355332]
この論文では、3つのCAMeraS、すなわちPIV3CAMSからPaired Image and Videoのデータを紹介している。 PIV3CAMSデータセットは8385対の画像と82対のビデオで構成されている。本稿では,現在最先端のアルゴリズムの再構築に加えて,深度情報を幾何的に統合する代替モデルについても検討する。
論文参考訳（メタデータ） (2024-07-26T12:18:29Z)
BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文参考訳（メタデータ） (2024-07-03T22:41:49Z)
Video Question Answering for People with Visual Impairments Using an Egocentric 360-Degree Camera [2.427410108595295]
本稿では,視覚障害者が直面する日常的課題,例えば情報へのアクセス制限,ナビゲーションの困難,社会的相互作用への障壁について論じる。これらの課題を軽減するために、我々は新しい視覚的質問応答データセットを導入する。ビデオは360度エゴセントリックなウェアラブルカメラで撮影され、周囲全体を観察することができる。
論文参考訳（メタデータ） (2024-05-30T08:02:05Z)
Knowledge-enhanced Multi-perspective Video Representation Learning for Scene Recognition [33.800842679024164]
我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-09T04:37:10Z)
NPF-200: A Multi-Modal Eye Fixation Dataset and Method for Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。 NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文参考訳（メタデータ） (2023-08-23T14:25:22Z)
EasyPortrait -- Face Parsing and Portrait Segmentation Dataset [79.16635054977068]
リアルタイムの背景除去や顔の美化といったコンピュータビジョンベースの機能を実現することで,ビデオ会議アプリが機能的になった。これらのタスクを同時に行うために、新しいデータセット、EasyPortraitを作成します。 13,705人のユニークなユーザーと9つのクラスに分かれたきめ細かいセグメンテーションマスクを備えた、ビデオ会議のシナリオを繰り返す4万枚の屋内写真が含まれている。
論文参考訳（メタデータ） (2023-04-26T12:51:34Z)
Marine Video Kit: A New Marine Video Dataset for Content-based Analysis and Retrieval [10.526705651297146]
本稿では,水中環境における移動カメラから撮影したワンショット映像に着目した。新しいMarine Video Kitの最初のシャードは、ビデオ検索やその他のコンピュータビジョンの課題に役立ちます。
論文参考訳（メタデータ） (2022-09-23T10:57:50Z)
ViSeRet: A simple yet effective approach to moment retrieval via fine-grained video segmentation [6.544437737391409]
本稿では,ICCV VALUE Challenge 2021のビデオ検索における第1位ソリューションを提案する。本稿では,2つのビデオテキスト検索タスクを共同で行うための,シンプルかつ効果的な手法を提案する。 4つのデータセットで新しい最先端のパフォーマンスを実現するアンサンブルモデルを作成します。
論文参考訳（メタデータ） (2021-10-11T10:39:13Z)
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2021-04-01T17:48:27Z)
A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文参考訳（メタデータ） (2020-12-11T18:54:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。