論文の概要: LumiVideo: An Intelligent Agentic System for Video Color Grading
- arxiv url: http://arxiv.org/abs/2604.02409v1
- Date: Thu, 02 Apr 2026 17:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.150403
- Title: LumiVideo: An Intelligent Agentic System for Video Color Grading
- Title(参考訳): LumiVideo: ビデオカラーグラフィーのためのインテリジェントなエージェントシステム
- Authors: Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su,
- Abstract要約: 我々は,プロカラーの認知ワークフローを,知覚,推論,実行,反射の4段階を通じて模倣するエージェントシステムであるLumiVideoを紹介した。
LumiVideoは、シーンの物理的照明とセマンティックコンテンツを分析して、撮影ベースグレードを自律的に生成する。
LumiGradeは、自動グレーティングを評価するための最初のログエンコードビデオベンチマークである。
- 参考スコア(独自算出の注目度): 61.69802853759301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video color grading is a critical post-production process that transforms flat, log-encoded raw footage into emotionally resonant cinematic visuals. Existing automated methods act as static, black-box executors that directly output edited pixels, lacking both interpretability and the iterative control required by professionals. We introduce LumiVideo, an agentic system that mimics the cognitive workflow of professional colorists through four stages: Perception, Reasoning, Execution, and Reflection. Given only raw log video, LumiVideo autonomously produces a cinematic base grade by analyzing the scene's physical lighting and semantic content. Its Reasoning engine synergizes an LLM's internalized cinematic knowledge with a Retrieval-Augmented Generation (RAG) framework via a Tree of Thoughts (ToT) search to navigate the non-linear color parameter space. Rather than generating pixels, the system compiles the deduced parameters into industry-standard ASC-CDL configurations and a globally consistent 3D LUT, analytically guaranteeing temporal consistency. An optional Reflection loop then allows creators to refine the result via natural language feedback. We further introduce LumiGrade, the first log-encoded video benchmark for evaluating automated grading. Experiments show that LumiVideo approaches human expert quality in fully automatic mode while enabling precise iterative control when directed.
- Abstract(参考訳): ビデオカラーグレーディングは、平らでログエンコードされた生の映像を感情的に共鳴する映像に変換する重要なポストプロダクションプロセスである。
既存の自動メソッドは、編集されたピクセルを直接出力する静的なブラックボックスエグゼキュータとして機能する。
我々は,プロカラーの認知ワークフローを,知覚,推論,実行,反射の4段階を通じて模倣するエージェントシステムであるLumiVideoを紹介した。
生のログビデオのみを前提として、LumiVideoはシーンの物理的ライティングとセマンティックコンテンツを分析して、撮影ベースグレードを自律的に生成する。
Reasoningエンジンは、LLMの内部化された映画知識とRetrieval-Augmented Generation (RAG)フレームワークを、Tree of Thoughts (ToT)サーチを通じて同期させ、非線形カラーパラメータ空間をナビゲートする。
このシステムは、ピクセルを生成する代わりに、推定されたパラメータを業界標準のASC-CDL構成と、時間的一貫性を解析的に保証する3D LUTにコンパイルする。
オプションのリフレクションループを使うと、クリエイターは自然言語のフィードバックで結果を洗練できる。
また、自動グレーティングを評価するための最初のログ符号化ビデオベンチマークであるLumiGradeについても紹介する。
実験により、LumiVideoは完全に自動モードで人間のエキスパート品質に近づき、指示された時に正確な反復制御が可能であることが示された。
関連論文リスト
- VERTIGO: Visual Preference Optimization for Cinematic Camera Trajectory Generation [22.682916634525565]
カメラ軌道生成器の視覚的嗜好最適化のための最初のフレームワークであるVERTIGOを紹介する。
我々のフレームワークは、リアルタイムグラフィックスエンジン(Unity)を活用して、生成されたカメラモーションから2Dビジュアルプレビューをレンダリングする。
映像的に微調整された視覚言語モデルを用いて,提案したサイクリックセマンティック類似度機構を用いて,これらのプレビューをスコアする。
Unityレンダリングの定量的評価とユーザスタディの両方は、条件順守、フレーミング品質、知覚リアリズムにおいて一貫した利得を示す。
論文 参考訳(メタデータ) (2026-04-02T18:58:56Z) - Code2Video: A Code-centric Paradigm for Educational Video Generation [60.03043132859077]
我々は,Pythonコードによる教育ビデオを生成するための,コード中心のエージェントフレームワークであるCode2Videoを提案する。
i)講義内容を時間的コヒーレントなフローに構造化するPlanner,(ii)構造化命令を実行可能なPythonコードに変換するCoder,そして(iii)視覚言語モデル(VLM)を視覚的アンカープロンプトで活用し,空間的レイアウトを洗練し,明確性を確保するCryticという3つの協調エージェントから構成される。
我々の結果は、Code2Videoが拡張性があり、解釈可能で、制御可能なアプローチである可能性を示し、直接コードよりも40%改善されている。
論文 参考訳(メタデータ) (2025-10-01T17:56:48Z) - Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models [18.008901495139717]
本稿では,大規模ビデオ生成モデルを用いたエンドツーエンドのビデオリライトフレームワークであるLumenを提案する。
合成ドメインでは、高度な3Dレンダリングエンジンを活用し、多様な環境でビデオペアをキュレートする。
現実的な領域では、HDRベースの照明シミュレーションを適用して、ペアの内蔵ビデオの欠如を補う。
論文 参考訳(メタデータ) (2025-08-18T14:21:22Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - Kubrick: Multimodal Agent Collaborations for Synthetic Video Generation [3.805591077440903]
視覚大言語モデル(VLM)エージェントの協調に基づく自動合成ビデオ生成パイプラインを提案する。
ビデオの言語記述が与えられた後、複数のVLMエージェントが生成パイプラインの様々なプロセスを指示する。
彼らは、与えられた記述に従ってビデオをレンダリングするBlenderスクリプトの作成に協力する。
サブプロセスごとに、Programmerエージェントは関数の合成とAPI呼び出しに基づいたPythonベースのBlenderスクリプトを生成する。
レビューエージェントは、ビデオレビュー、キャラクターの動き座標、中間スクリーンショットの知識を持ち、プログラマエージェントにフィードバックを提供する。
私たちの生成したビデオは、ビデオ上の5つの指標で商用ビデオ生成モデルよりも品質が良い
論文 参考訳(メタデータ) (2024-08-19T23:31:02Z) - Reframe Anything: LLM Agent for Open World Video Reframing [0.8424099022563256]
ビデオリフレーミングのためのビジュアルコンテンツを再構成するAIベースのエージェントであるReframe Any Video Agent (RAVA)を紹介する。
RAVAは、ユーザーの指示やビデオコンテンツを解釈する知覚、アスペクト比やフレーミング戦略を決定する計画、最終映像を作成するための編集ツールを呼び出す実行の3段階からなる。
我々の実験は、AIを利用したビデオ編集ツールとしての可能性を実証し、ビデオの有能なオブジェクト検出と現実世界のリフレーミングタスクにおけるRAVAの有効性を検証した。
論文 参考訳(メタデータ) (2024-03-10T03:29:56Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。