論文の概要: EditIQ: Automated Cinematic Editing of Static Wide-Angle Videos via Dialogue Interpretation and Saliency Cues
- arxiv url: http://arxiv.org/abs/2502.02172v1
- Date: Tue, 04 Feb 2025 09:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:53:06.907033
- Title: EditIQ: Automated Cinematic Editing of Static Wide-Angle Videos via Dialogue Interpretation and Saliency Cues
- Title(参考訳): EditIQ: 対話解釈とサリエンシキューによる静的ワイドアングルビデオの自動編集
- Authors: Rohit Girmaji, Bhav Beri, Ramanathan Subramanian, Vineet Gandhi,
- Abstract要約: 我々は、静止画、大視野、高解像度カメラで撮影されたシーンを撮影的に編集する、完全に自動化されたフレームワークEditIQを提案する。
静的カメラフィードから、EditIQは最初、複数の仮想フィードを生成し、カメラマンのチームをエミュレートする。
これらの仮想カメラショットは後に自動編集アルゴリズムを用いて組み立てられ、その目的は視聴者に最も鮮明なシーンコンテンツを提示することである。
- 参考スコア(独自算出の注目度): 6.844857856353673
- License:
- Abstract: We present EditIQ, a completely automated framework for cinematically editing scenes captured via a stationary, large field-of-view and high-resolution camera. From the static camera feed, EditIQ initially generates multiple virtual feeds, emulating a team of cameramen. These virtual camera shots termed rushes are subsequently assembled using an automated editing algorithm, whose objective is to present the viewer with the most vivid scene content. To understand key scene elements and guide the editing process, we employ a two-pronged approach: (1) a large language model (LLM)-based dialogue understanding module to analyze conversational flow, coupled with (2) visual saliency prediction to identify meaningful scene elements and camera shots therefrom. We then formulate cinematic video editing as an energy minimization problem over shot selection, where cinematic constraints determine shot choices, transitions, and continuity. EditIQ synthesizes an aesthetically and visually compelling representation of the original narrative while maintaining cinematic coherence and a smooth viewing experience. Efficacy of EditIQ against competing baselines is demonstrated via a psychophysical study involving twenty participants on the BBC Old School dataset plus eleven theatre performance videos. Video samples from EditIQ can be found at https://editiq-ave.github.io/.
- Abstract(参考訳): 我々は、静止画、大視野、高解像度カメラで撮影されたシーンを撮影的に編集する、完全に自動化されたフレームワークEditIQを提案する。
静的カメラフィードから、EditIQは最初、複数の仮想フィードを生成し、カメラマンのチームをエミュレートする。
これらの仮想カメラショットは後に自動編集アルゴリズムを用いて組み立てられ、その目的は視聴者に最も鮮明なシーンコンテンツを提示することである。
主要なシーン要素を理解し,編集プロセスを導くために,(1)対話の流れを解析する大言語モデル(LLM)に基づく対話理解モジュールと,(2)意味のあるシーン要素とカメラショットを識別するための視覚的サリエンス予測を用いる。
次に、撮影制約がショット選択、遷移、連続性を決定する場合、撮影映像編集をショット選択よりもエネルギー最小化の問題として定式化する。
EditIQは、映画のコヒーレンスとスムーズな視聴体験を維持しながら、オリジナル物語の美的かつ視覚的に説得力のある表現を合成する。
EditIQの競合するベースラインに対する効果は、BBCオールドスクールのデータセットに20人の参加者と11の劇場パフォーマンスビデオを含む精神物理学的な研究によって実証される。
EditIQのビデオサンプルはhttps://editiq-ave.github.io/で見ることができる。
関連論文リスト
- A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文 参考訳(メタデータ) (2024-11-07T18:20:28Z) - Audio-driven High-resolution Seamless Talking Head Video Editing via StyleGAN [11.504952707087696]
本稿では,2つのモジュールをベースとした感情の相違により,対話型顔画像のシームレスな編集を行うことにより,この問題に対処する。
音声から対応する感情的ランドマークを予測することで、音声と顔の動きのギャップを埋める。
入力オーディオから感情とコンテンツコンポーネントからなるシームレスな編集ビデオを生成することを目的としている。
論文 参考訳(メタデータ) (2024-07-08T03:17:10Z) - HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z) - Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions [49.14827857853878]
ReimaginedActはビデオ理解、推論、編集モジュールを含む。
提案手法は, 直接指示文のプロンプトだけでなく, 行動変化を予測するための質問も受けられる。
論文 参考訳(メタデータ) (2024-03-11T22:46:46Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - The Anatomy of Video Editing: A Dataset and Benchmark Suite for
AI-Assisted Video Editing [90.59584961661345]
この研究は、AIによるビデオ編集の研究を促進するために、データセットとベンチマークであるビデオ編集の解剖学を導入している。
本ベンチマークスイートでは,映像の自動撮影やビデオ組み立て支援など,視覚効果以外の映像編集作業に重点を置いている。
これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。
論文 参考訳(メタデータ) (2022-07-20T10:53:48Z) - GAZED- Gaze-guided Cinematic Editing of Wide-Angle Monocular Video
Recordings [6.980491499722598]
本稿では,GAZED- eye GAZe-guided EDiting for video capture by asolary, static, wide-angle and high- resolution camera。
視覚ゲームは、興味深いシーンコンテンツをキャプチャするためのキューとして、計算応用に効果的に利用されている。
論文 参考訳(メタデータ) (2020-10-22T17:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。