論文の概要: Horizontal-to-Vertical Video Conversion
- arxiv url: http://arxiv.org/abs/2101.04051v1
- Date: Mon, 11 Jan 2021 17:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 16:56:51.992330
- Title: Horizontal-to-Vertical Video Conversion
- Title(参考訳): 水平-垂直ビデオ変換
- Authors: Tun Zhu, Daoxin Zhang, Tianran Wang, Xiaolong Jiang, Jiawei Li, Yao
Hu, Jianke Zhu
- Abstract要約: h2vフレームワークは、ビデオショット境界検出、主題選択、マルチオブジェクト追跡を統合し、主題保存変換を容易にする。
H2Vフレームワークを構築および評価するために、H2V-142Kデータセットには、132Kフレームと9,500ビデオカバーを備えた125ビデオの主題境界ボックスが密にアノテートされています。
- 参考スコア(独自算出の注目度): 21.40521842939682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alongside the prevalence of mobile videos, the general public leans towards
consuming vertical videos on hand-held devices. To revitalize the exposure of
horizontal contents, we hereby set forth the exploration of automated
horizontal-to-vertical (abbreviated as H2V) video conversion with our proposed
H2V framework, accompanied by an accurately annotated H2V-142K dataset.
Concretely, H2V framework integrates video shot boundary detection, subject
selection and multi-object tracking to facilitate the subject-preserving
conversion, wherein the key is subject selection. To achieve so, we propose a
Rank-SS module that detects human objects, then selects the subject-to-preserve
via exploiting location, appearance, and salient cues. Afterward, the framework
automatically crops the video around the subject to produce vertical contents
from horizontal sources. To build and evaluate our H2V framework, H2V-142K
dataset is densely annotated with subject bounding boxes for 125 videos with
132K frames and 9,500 video covers, upon which we demonstrate superior subject
selection performance comparing to traditional salient approaches, and exhibit
promising horizontal-to-vertical conversion performance overall. By publicizing
this dataset as well as our approach, we wish to pave the way for more valuable
endeavors on the horizontal-to-vertical video conversion task.
- Abstract(参考訳): モバイルビデオの普及とともに、一般大衆は携帯端末で垂直ビデオを消費する傾向にある。
本稿では, H2V-142Kの正確な注釈付きデータセットを伴って, H2Vフレームワークによる自動水平垂直変換(H2V)の探索を行う。
具体的には、h2vフレームワークはビデオショット境界検出、主題選択、マルチオブジェクト追跡を統合し、主題保存変換を容易にし、鍵が主題選択である。
そこで我々は,人間の物体を検知し,その位置,外観,および有能な手がかりを利用して保存対象を選択するランクSSモジュールを提案する。
その後、このフレームワークは被写体周辺の映像を自動的に収集し、水平方向からの垂直なコンテンツを生成する。
H2V-142Kデータセットは,H2Vフレーム132Kフレームと9,500ビデオカバーを有する125本の動画に対して,被写体境界ボックスと密接なアノテートされ,従来のサリアンアプローチと比較して優れた被写体選択性能を示し,全体として有望な水平-垂直変換性能を示す。
このデータセットと私たちのアプローチを公表することで、水平から垂直へのビデオ変換タスクにおけるより価値のある取り組みへの道を開くことを望みます。
関連論文リスト
- E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - VToonify: Controllable High-Resolution Portrait Video Style Transfer [103.54337984566877]
制御可能な高解像度のポートレートビデオスタイル転送のための新しいVToonifyフレームワークを提案する。
エンコーダによって抽出されたマルチスケールのコンテンツ特徴に基づいて,StyleGANの中間層と高解像度層を利用して芸術的な肖像画を描画する。
我々のフレームワークは、既存のStyleGANベースの画像トーン化モデルと互換性があり、それらをビデオトーン化に拡張し、色と強度の柔軟なスタイル制御のためにこれらのモデルの魅力的な特徴を継承する。
論文 参考訳(メタデータ) (2022-09-22T17:59:10Z) - Perceptual Quality Assessment of Virtual Reality Videos in the Wild [50.33693148440248]
既存のパノラマビデオデータベースでは、合成歪みのみを考慮し、一定の視聴条件を仮定し、サイズに制限がある。
我々はVRVQW(VR Video Quality in the Wild)データベースを構築した。
我々は,2つの異なる視聴条件下で,139ドルの被験者から,スキャンパスと品質スコアを記録するための正式な心理物理実験を行った。
論文 参考訳(メタデータ) (2022-06-13T02:22:57Z) - VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:50:45Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z) - Deep Slow Motion Video Reconstruction with Hybrid Imaging System [12.340049542098148]
現在の技術は、難題では有効でない線形物体の動きを仮定することにより、フレームを通して標準映像のフレームレートを増大させる。
本稿では,アライメントと外観推定を組み合わせた2段階のディープラーニングシステムを提案する。
我々は、合成合成ハイブリッドビデオでモデルをトレーニングし、様々なテストシーンで高品質な結果を示す。
論文 参考訳(メタデータ) (2020-02-27T14:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。