論文の概要: Retargeting video with an end-to-end framework
- arxiv url: http://arxiv.org/abs/2311.04458v2
- Date: Thu, 9 Nov 2023 02:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 11:55:46.891801
- Title: Retargeting video with an end-to-end framework
- Title(参考訳): エンドツーエンドフレームワークによるビデオの再ターゲティング
- Authors: Thi-Ngoc-Hanh Le, HuiGuang Huang, Yi-Ru Chen, and Tong-Yee Lee
- Abstract要約: 本稿では,動画を任意の比率に再ターゲティングするためのエンドツーエンドのRETVI手法を提案する。
私たちのシステムは、以前よりも品質と実行時間で優れています。
- 参考スコア(独自算出の注目度): 14.270721529264929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video holds significance in computer graphics applications. Because of the
heterogeneous of digital devices, retargeting videos becomes an essential
function to enhance user viewing experience in such applications. In the
research of video retargeting, preserving the relevant visual content in
videos, avoiding flicking, and processing time are the vital challenges.
Extending image retargeting techniques to the video domain is challenging due
to the high running time. Prior work of video retargeting mainly utilizes
time-consuming preprocessing to analyze frames. Plus, being tolerant of
different video content, avoiding important objects from shrinking, and the
ability to play with arbitrary ratios are the limitations that need to be
resolved in these systems requiring investigation. In this paper, we present an
end-to-end RETVI method to retarget videos to arbitrary aspect ratios. We
eliminate the computational bottleneck in the conventional approaches by
designing RETVI with two modules, content feature analyzer (CFA) and adaptive
deforming estimator (ADE). The extensive experiments and evaluations show that
our system outperforms previous work in quality and running time. Visit our
project website for more results at http://graphics.csie.ncku.edu.tw/RETVI.
- Abstract(参考訳): ビデオはコンピュータグラフィックスアプリケーションにおいて重要である。
デジタル機器の不均一性により、ビデオの再ターゲティングは、そのようなアプリケーションにおけるユーザー視聴エクスペリエンスを向上させる上で必須の機能となる。
ビデオ再ターゲティングの研究では、ビデオ内の関連するビジュアルコンテンツの保存、フリックの回避、処理時間の削減が重要な課題である。
ビデオ領域へのイメージリターゲティング技術の拡張は、高い実行時間のために困難である。
ビデオ再ターゲティングの以前の仕事は、主に時間消費の前処理を使用してフレームを分析する。
さらに、異なるビデオコンテンツに寛容であり、重要なオブジェクトの縮小を回避し、任意の比率でプレイする能力は、調査を必要とするこれらのシステムで解決すべき制限である。
本稿では,動画を任意のアスペクト比に再ターゲットするエンドツーエンドのRETVI手法を提案する。
本稿では、コンテンツ特徴分析器(CFA)と適応変形推定器(ADE)の2つのモジュールでRETVIを設計することで、従来の手法の計算ボトルネックを解消する。
広範な実験と評価の結果,システムの性能と実行時間の面では,これまでの作業よりも優れています。
プロジェクトのWebサイト(http://graphics.csie.ncku.edu.tw/RETVI)を見てください。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Reframe Anything: LLM Agent for Open World Video Reframing [0.8424099022563256]
ビデオリフレーミングのためのビジュアルコンテンツを再構成するAIベースのエージェントであるReframe Any Video Agent (RAVA)を紹介する。
RAVAは、ユーザーの指示やビデオコンテンツを解釈する知覚、アスペクト比やフレーミング戦略を決定する計画、最終映像を作成するための編集ツールを呼び出す実行の3段階からなる。
我々の実験は、AIを利用したビデオ編集ツールとしての可能性を実証し、ビデオの有能なオブジェクト検出と現実世界のリフレーミングタスクにおけるRAVAの有効性を検証した。
論文 参考訳(メタデータ) (2024-03-10T03:29:56Z) - Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention [29.62044843067169]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文 参考訳(メタデータ) (2024-01-25T04:39:48Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Feature Re-Learning with Data Augmentation for Video Relevance
Prediction [35.87597969685573]
再学習は、アフィン変換によって与えられた深い機能を新しい空間に投影することで実現される。
本稿では,フレームレベルとビデオレベルの機能に直接依存する新たなデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2020-04-08T05:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。