論文の概要: From Shots to Stories: LLM-Assisted Video Editing with Unified Language Representations
- arxiv url: http://arxiv.org/abs/2505.12237v1
- Date: Sun, 18 May 2025 05:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.111212
- Title: From Shots to Stories: LLM-Assisted Video Editing with Unified Language Representations
- Title(参考訳): ショットからストーリーへ:統一言語表現によるLLM支援ビデオ編集
- Authors: Yuzhi Li, Haojun Xu, Fang Tian,
- Abstract要約: 大言語モデル(LLM)と視覚言語モデル(VLM)は、ビデオ理解において顕著な推論と一般化能力を示している。
本稿では,ビデオ編集の文脈におけるLLMの体系的研究について述べる。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) and Vision-Language Models (VLMs) have demonstrated remarkable reasoning and generalization capabilities in video understanding; however, their application in video editing remains largely underexplored. This paper presents the first systematic study of LLMs in the context of video editing. To bridge the gap between visual information and language-based reasoning, we introduce L-Storyboard, an intermediate representation that transforms discrete video shots into structured language descriptions suitable for LLM processing. We categorize video editing tasks into Convergent Tasks and Divergent Tasks, focusing on three core tasks: Shot Attributes Classification, Next Shot Selection, and Shot Sequence Ordering. To address the inherent instability of divergent task outputs, we propose the StoryFlow strategy, which converts the divergent multi-path reasoning process into a convergent selection mechanism, effectively enhancing task accuracy and logical coherence. Experimental results demonstrate that L-Storyboard facilitates a more robust mapping between visual information and language descriptions, significantly improving the interpretability and privacy protection of video editing tasks. Furthermore, StoryFlow enhances the logical consistency and output stability in Shot Sequence Ordering, underscoring the substantial potential of LLMs in intelligent video editing.
- Abstract(参考訳): 大規模言語モデル (LLM) と視覚言語モデル (VLM) はビデオ理解において顕著な推論と一般化能力を示しているが、ビデオ編集におけるそれらの応用はいまだに未熟である。
本稿では,ビデオ編集の文脈におけるLLMの体系的研究について述べる。
視覚情報と言語に基づく推論のギャップを埋めるため,L-Storyboardという,離散映像をLLM処理に適した構造化言語記述に変換する中間表現を導入する。
本稿では,映像編集タスクをコンバージェントタスクとダイバージェントタスクに分類し,ショット属性分類,次のショット選択,ショットシーケンス順序付けの3つのコアタスクに着目した。
発散したタスク出力の本質的な不安定性に対処するために、発散したマルチパス推論プロセスを収束選択機構に変換するStoryFlow戦略を提案し、タスク精度と論理コヒーレンスを効果的に向上させる。
実験の結果,L-Storyboardは視覚情報と言語記述のより堅牢なマッピングを促進し,映像編集タスクの解釈可能性やプライバシー保護を大幅に向上させることがわかった。
さらに、StoryFlowはショットシーケンスオーダリングにおける論理的一貫性と出力安定性を高め、インテリジェントなビデオ編集におけるLLMの実質的な可能性を強調する。
関連論文リスト
- Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z) - Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video [22.60291297308379]
本研究では,映像要約タスクを自然言語処理(NLP)タスクに変換する可能性について検討する。
本手法は,ランク相関係数のSumMeデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-14T18:07:04Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクのコンテキストにおいてLLMの実用性を拡張し,最小限のインプットとアウトプットのデモをコンテキストフレームワーク内で一般化する,新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。