論文の概要: SKALD: Learning-Based Shot Assembly for Coherent Multi-Shot Video Creation
- arxiv url: http://arxiv.org/abs/2503.08010v1
- Date: Tue, 11 Mar 2025 03:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:41.591202
- Title: SKALD: Learning-Based Shot Assembly for Coherent Multi-Shot Video Creation
- Title(参考訳): SKALD:コヒーレントなマルチショットビデオ作成のための学習型ショットアセンブリ
- Authors: Chen Yi Lu, Md Mehrab Tanjim, Ishita Dasgupta, Somdeb Sarkhel, Gang Wu, Saayan Mitra, Somali Chaterji,
- Abstract要約: 候補画像からコヒーレントなビデオシーケンスを構成するマルチショットビデオアセンブリであるSKALDを提案する。
我々は、複数のショットと学習クリップアセンブリスコアで導かれる効率的なビーム探索アルゴリズムを組み合わせるという指数関数的な複雑さに対処する。
VSPDと当社のキュレートしたMSV3Cデータセットの実験により、SKALDはIoUで最大48.6%の改善を実現し、最先端の手法よりも43%高速化された。
- 参考スコア(独自算出の注目度): 12.89690489768177
- License:
- Abstract: We present SKALD, a multi-shot video assembly method that constructs coherent video sequences from candidate shots with minimal reliance on text. Central to our approach is the Learned Clip Assembly (LCA) score, a learning-based metric that measures temporal and semantic relationships between shots to quantify narrative coherence. We tackle the exponential complexity of combining multiple shots with an efficient beam-search algorithm guided by the LCA score. To train our model effectively with limited human annotations, we propose two tasks for the LCA encoder: Shot Coherence Learning, which uses contrastive learning to distinguish coherent and incoherent sequences, and Feature Regression, which converts these learned representations into a real-valued coherence score. We develop two variants: a base SKALD model that relies solely on visual coherence and SKALD-text, which integrates auxiliary text information when available. Experiments on the VSPD and our curated MSV3C datasets show that SKALD achieves an improvement of up to 48.6% in IoU and a 43% speedup over the state-of-the-art methods. A user study further validates our approach, with 45% of participants favoring SKALD-assembled videos, compared to 22% preferring text-based assembly methods.
- Abstract(参考訳): テキストに依存しない候補画像からコヒーレントなビデオシーケンスを構成するマルチショットビデオアセンブリであるSKALDを提案する。
われわれのアプローチの中心は、物語のコヒーレンスを定量化するためにショット間の時間的および意味的な関係を測定する学習ベースのメトリクスであるLearted Clip Assembly (LCA)スコアである。
我々は、LCAスコアで導かれる効率的なビーム探索アルゴリズムと複数のショットを組み合わせるという指数関数的な複雑さに取り組む。
限定された人間のアノテーションでモデルを効果的に訓練するために、コントラスト学習を用いてコヒーレントおよび非コヒーレントシーケンスを識別するショットコヒーレンス学習と、これらの学習された表現を実数値コヒーレンススコアに変換する特徴回帰という2つのタスクを提案する。
視覚的コヒーレンスのみに依存するベースSKALDモデルと、利用可能であれば補助テキスト情報を統合するSKALD-textの2種類を開発した。
VSPDと当社のキュレートしたMSV3Cデータセットの実験により、SKALDはIoUで最大48.6%の改善を実現し、最先端の手法よりも43%高速化された。
ユーザの45%がSKALDを組立てたビデオを好むのに対して,22%がテキストベースの組立手法を好むのに対して,ユーザ調査は我々のアプローチをさらに検証している。
関連論文リスト
- Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment [53.12952107996463]
本研究は,訓練ビデオにおけるプロシージャステップの時間的境界をローカライズするための新しいトレーニングフレームワークを提案する。
手続き理解とテキスト要約におけるLLM(Large Language Models)の強みに感銘を受けて,まずLLMを適用し,課題関連情報を抽出し,課題関連手順をナレーションから要約する。
LLMステップとトレーニング用ビデオとの信頼性の高い擬似マッチングを生成するために,MPTVA(Multi-Pathway Text-Video Alignment)戦略を提案する。
論文 参考訳(メタデータ) (2024-09-22T18:40:55Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Improving Video Violence Recognition with Human Interaction Learning on
3D Skeleton Point Clouds [88.87985219999764]
我々は骨格点の新たな視点からビデオ暴力認識法を開発した。
まず、ビデオから抽出した人間の配列から3Dスケルトン点雲を定式化する。
そして、これらの3Dスケルトン点雲上で相互作用学習を行う。
論文 参考訳(メタデータ) (2023-08-26T12:55:18Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Temporal Contrastive Learning with Curriculum [19.442685015494316]
ConCurは、カリキュラム学習を用いて動的サンプリング戦略を課すコントラスト型ビデオ表現学習法である。
提案手法は,UCF101とHMDB51という2つの一般的な行動認識データセットを用いて実験を行い,その有効性を実証した。
論文 参考訳(メタデータ) (2022-09-02T00:12:05Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Support-Set Based Cross-Supervision for Video Grounding [98.29089558426399]
サポートセットベースのクロススーパービジョン(Sscs)モジュールは、追加の推論コストなしでトレーニングフェーズ中に既存のメソッドを改善することができる。
提案するSscsモジュールは、識別的コントラスト目的と生成的キャプション目的の2つの主要成分を含む。
我々は3つの挑戦的データセット上でSscsを広範囲に評価し、我々の手法が最先端の手法を大きなマージンで改善できることを示す。
論文 参考訳(メタデータ) (2021-08-24T08:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。