論文の概要: Horizontal-to-Vertical Video Conversion
- arxiv url: http://arxiv.org/abs/2101.04051v1
- Date: Mon, 11 Jan 2021 17:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 16:56:51.992330
- Title: Horizontal-to-Vertical Video Conversion
- Title(参考訳): 水平-垂直ビデオ変換
- Authors: Tun Zhu, Daoxin Zhang, Tianran Wang, Xiaolong Jiang, Jiawei Li, Yao
Hu, Jianke Zhu
- Abstract要約: h2vフレームワークは、ビデオショット境界検出、主題選択、マルチオブジェクト追跡を統合し、主題保存変換を容易にする。
H2Vフレームワークを構築および評価するために、H2V-142Kデータセットには、132Kフレームと9,500ビデオカバーを備えた125ビデオの主題境界ボックスが密にアノテートされています。
- 参考スコア(独自算出の注目度): 21.40521842939682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alongside the prevalence of mobile videos, the general public leans towards
consuming vertical videos on hand-held devices. To revitalize the exposure of
horizontal contents, we hereby set forth the exploration of automated
horizontal-to-vertical (abbreviated as H2V) video conversion with our proposed
H2V framework, accompanied by an accurately annotated H2V-142K dataset.
Concretely, H2V framework integrates video shot boundary detection, subject
selection and multi-object tracking to facilitate the subject-preserving
conversion, wherein the key is subject selection. To achieve so, we propose a
Rank-SS module that detects human objects, then selects the subject-to-preserve
via exploiting location, appearance, and salient cues. Afterward, the framework
automatically crops the video around the subject to produce vertical contents
from horizontal sources. To build and evaluate our H2V framework, H2V-142K
dataset is densely annotated with subject bounding boxes for 125 videos with
132K frames and 9,500 video covers, upon which we demonstrate superior subject
selection performance comparing to traditional salient approaches, and exhibit
promising horizontal-to-vertical conversion performance overall. By publicizing
this dataset as well as our approach, we wish to pave the way for more valuable
endeavors on the horizontal-to-vertical video conversion task.
- Abstract(参考訳): モバイルビデオの普及とともに、一般大衆は携帯端末で垂直ビデオを消費する傾向にある。
本稿では, H2V-142Kの正確な注釈付きデータセットを伴って, H2Vフレームワークによる自動水平垂直変換(H2V)の探索を行う。
具体的には、h2vフレームワークはビデオショット境界検出、主題選択、マルチオブジェクト追跡を統合し、主題保存変換を容易にし、鍵が主題選択である。
そこで我々は,人間の物体を検知し,その位置,外観,および有能な手がかりを利用して保存対象を選択するランクSSモジュールを提案する。
その後、このフレームワークは被写体周辺の映像を自動的に収集し、水平方向からの垂直なコンテンツを生成する。
H2V-142Kデータセットは,H2Vフレーム132Kフレームと9,500ビデオカバーを有する125本の動画に対して,被写体境界ボックスと密接なアノテートされ,従来のサリアンアプローチと比較して優れた被写体選択性能を示し,全体として有望な水平-垂直変換性能を示す。
このデータセットと私たちのアプローチを公表することで、水平から垂直へのビデオ変換タスクにおけるより価値のある取り組みへの道を開くことを望みます。
関連論文リスト
- Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - LAVIB: A Large-scale Video Interpolation Benchmark [58.194606275650095]
LAVIBは、Webから自動パイプラインを通じてソースされる高解像度ビデオの大規模なコレクションで構成されている。
各ビデオの運動の大きさ、輝度条件、フレームのシャープネス、コントラストについてメトリクスが計算される。
LAVIBには17KのUltra-HDビデオから283Kのクリップが含まれ、77.6時間に及ぶ。
論文 参考訳(メタデータ) (2024-06-14T06:44:01Z) - 1st Place Winner of the 2024 Pixel-level Video Understanding in the Wild (CVPR'24 PVUW) Challenge in Video Panoptic Segmentation and Best Long Video Consistency of Video Semantic Segmentation [11.331198234997714]
PVUW CVPR 2024(英語版)による第3のPixelレベルのビデオ理解は、映像理解における最先端技術の実現を目的としている。
本稿ではPVUW'24 VPSチャレンジで1位を獲得した私たちの研究成果を詳述する。
我々のソリューションは、巨大なビジョントランスフォーマーモデル(DINOv2 ViT-g)と、実証されたマルチステージデカップリングビデオインスタンスフレームワークの肩の上にあります。
論文 参考訳(メタデータ) (2024-06-08T04:43:08Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:50:45Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。