Fugu-MT 論文翻訳(概要): Horizontal-to-Vertical Video Conversion

論文の概要: Horizontal-to-Vertical Video Conversion

arxiv url: http://arxiv.org/abs/2101.04051v1
Date: Mon, 11 Jan 2021 17:37:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-04 16:56:51.992330
Title: Horizontal-to-Vertical Video Conversion
Title（参考訳）: 水平-垂直ビデオ変換
Authors: Tun Zhu, Daoxin Zhang, Tianran Wang, Xiaolong Jiang, Jiawei Li, Yao Hu, Jianke Zhu
Abstract要約: h2vフレームワークは、ビデオショット境界検出、主題選択、マルチオブジェクト追跡を統合し、主題保存変換を容易にする。 H2Vフレームワークを構築および評価するために、H2V-142Kデータセットには、132Kフレームと9,500ビデオカバーを備えた125ビデオの主題境界ボックスが密にアノテートされています。
参考スコア（独自算出の注目度）: 21.40521842939682
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Alongside the prevalence of mobile videos, the general public leans towards consuming vertical videos on hand-held devices. To revitalize the exposure of horizontal contents, we hereby set forth the exploration of automated horizontal-to-vertical (abbreviated as H2V) video conversion with our proposed H2V framework, accompanied by an accurately annotated H2V-142K dataset. Concretely, H2V framework integrates video shot boundary detection, subject selection and multi-object tracking to facilitate the subject-preserving conversion, wherein the key is subject selection. To achieve so, we propose a Rank-SS module that detects human objects, then selects the subject-to-preserve via exploiting location, appearance, and salient cues. Afterward, the framework automatically crops the video around the subject to produce vertical contents from horizontal sources. To build and evaluate our H2V framework, H2V-142K dataset is densely annotated with subject bounding boxes for 125 videos with 132K frames and 9,500 video covers, upon which we demonstrate superior subject selection performance comparing to traditional salient approaches, and exhibit promising horizontal-to-vertical conversion performance overall. By publicizing this dataset as well as our approach, we wish to pave the way for more valuable endeavors on the horizontal-to-vertical video conversion task.
Abstract（参考訳）: モバイルビデオの普及とともに、一般大衆は携帯端末で垂直ビデオを消費する傾向にある。本稿では, H2V-142Kの正確な注釈付きデータセットを伴って, H2Vフレームワークによる自動水平垂直変換(H2V)の探索を行う。具体的には、h2vフレームワークはビデオショット境界検出、主題選択、マルチオブジェクト追跡を統合し、主題保存変換を容易にし、鍵が主題選択である。そこで我々は,人間の物体を検知し,その位置,外観,および有能な手がかりを利用して保存対象を選択するランクSSモジュールを提案する。その後、このフレームワークは被写体周辺の映像を自動的に収集し、水平方向からの垂直なコンテンツを生成する。 H2V-142Kデータセットは,H2Vフレーム132Kフレームと9,500ビデオカバーを有する125本の動画に対して,被写体境界ボックスと密接なアノテートされ,従来のサリアンアプローチと比較して優れた被写体選択性能を示し,全体として有望な水平-垂直変換性能を示す。このデータセットと私たちのアプローチを公表することで、水平から垂直へのビデオ変換タスクにおけるより価値のある取り組みへの道を開くことを望みます。

関連論文リスト

M2SVid: End-to-End Inpainting and Refinement for Monocular-to-Stereo Video Conversion [60.728003408015844]
入力左図の奥行きに基づく再投影により得られた歪んだ右図の描画と洗練のための新しいアーキテクチャを提案する。提案手法は従来の最先端手法よりも優れており,ユーザスタディでは4つの比較手法の中で平均1.43のランクが得られた。
論文参考訳（メタデータ） (2025-05-22T11:58:54Z)
Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos [64.10180665546237]
360degのビデオは、私たちの周囲のより完全な視点を提供する。既存のビデオモデルは、標準的なビデオを作るのに優れているが、完全なパノラマビデオを生成する能力は、まだ明らかになっていない。高品質なデータフィルタリングパイプラインを開発し、双方向のトレーニングデータをキュレートし、360度ビデオ生成の品質を向上させる。実験結果から,本モデルでは実写的でコヒーレントな360デグ映像を撮影できることが示された。
論文参考訳（メタデータ） (2025-04-10T17:51:38Z)
TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models [33.219657261649324]
TrajectoryCrafterは、モノクロビデオのためのカメラトラジェクトリをリダイレクトする新しいアプローチである。コンテンツ生成から決定論的視点変換を遠ざけることで,ユーザの特定したカメラトラジェクトリの正確な制御を実現する。
論文参考訳（メタデータ） (2025-03-07T17:57:53Z)
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.01510927611452]
我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。 Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。 Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文参考訳（メタデータ） (2025-02-14T15:58:10Z)
Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-14T21:53:11Z)
Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-02T20:00:49Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
LAVIB: A Large-scale Video Interpolation Benchmark [58.194606275650095]
LAVIBは、Webから自動パイプラインを通じてソースされる高解像度ビデオの大規模なコレクションで構成されている。各ビデオの運動の大きさ、輝度条件、フレームのシャープネス、コントラストについてメトリクスが計算される。 LAVIBには17KのUltra-HDビデオから283Kのクリップが含まれ、77.6時間に及ぶ。
論文参考訳（メタデータ） (2024-06-14T06:44:01Z)
1st Place Winner of the 2024 Pixel-level Video Understanding in the Wild (CVPR'24 PVUW) Challenge in Video Panoptic Segmentation and Best Long Video Consistency of Video Semantic Segmentation [11.331198234997714]
PVUW CVPR 2024(英語版)による第3のPixelレベルのビデオ理解は、映像理解における最先端技術の実現を目的としている。本稿ではPVUW'24 VPSチャレンジで1位を獲得した私たちの研究成果を詳述する。我々のソリューションは、巨大なビジョントランスフォーマーモデル(DINOv2 ViT-g)と、実証されたマルチステージデカップリングビデオインスタンスフレームワークの肩の上にあります。
論文参考訳（メタデータ） (2024-06-08T04:43:08Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。 VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文参考訳（メタデータ） (2022-05-18T16:50:45Z)
Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文参考訳（メタデータ） (2021-12-02T18:59:02Z)
Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文参考訳（メタデータ） (2020-06-19T19:35:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。