Fugu-MT 論文翻訳(概要): TC-Light: Temporally Coherent Generative Rendering for Realistic World Transfer

論文の概要: TC-Light: Temporally Coherent Generative Rendering for Realistic World Transfer

arxiv url: http://arxiv.org/abs/2506.18904v2
Date: Wed, 02 Jul 2025 12:51:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 12:13:55.515741
Title: TC-Light: Temporally Coherent Generative Rendering for Realistic World Transfer
Title（参考訳）: TC-Light: 現実的世界移動のための一時的コヒーレントな生成レンダリング
Authors: Yang Liu, Chuanchen Luo, Zimo Tang, Yingyan Li, Yuran Yang, Yuanyong Ning, Lue Fan, Zhaoxiang Zhang, Junran Peng,
Abstract要約: 照明とテクスチャ編集はワールド・トゥ・ワールド・トランスファーにとって重要な次元である。既存の技術は、ビデオのリライティングモデルや条件付き世界生成モデルなどのトランスファーを実現するために、入力ビデオを生成的に再レンダリングする。我々はこれらの問題を克服するための新しい生成計算であるTC-Lightを提案する。
参考スコア（独自算出の注目度）: 47.22201704648345
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Illumination and texture editing are critical dimensions for world-to-world transfer, which is valuable for applications including sim2real and real2real visual data scaling up for embodied AI. Existing techniques generatively re-render the input video to realize the transfer, such as video relighting models and conditioned world generation models. Nevertheless, these models are predominantly limited to the domain of training data (e.g., portrait) or fall into the bottleneck of temporal consistency and computation efficiency, especially when the input video involves complex dynamics and long durations. In this paper, we propose TC-Light, a novel generative renderer to overcome these problems. Starting from the video preliminarily relighted by an inflated video relighting model, it optimizes appearance embedding in the first stage to align global illumination. Then it optimizes the proposed canonical video representation, i.e., Unique Video Tensor (UVT), to align fine-grained texture and lighting in the second stage. To comprehensively evaluate performance, we also establish a long and highly dynamic video benchmark. Extensive experiments show that our method enables physically plausible re-rendering results with superior temporal coherence and low computation cost. The code and video demos are available at https://dekuliutesla.github.io/tclight/.
Abstract（参考訳）: 照明とテクスチャの編集はワールド・トゥ・ワールド・トランスファーにとって重要な次元であり、エボデードAIのためのsim2realやreal2realビジュアルデータスケールアップなどのアプリケーションに有用である。既存の技術は、ビデオのリライティングモデルや条件付き世界生成モデルなどの転送を実現するために、入力ビデオを生成的に再レンダリングする。しかしながら、これらのモデルはトレーニングデータ(例えばポートレート)の領域に限られるか、特に入力ビデオが複雑なダイナミックスと長い持続時間を含む場合、時間的一貫性と計算効率のボトルネックに陥る。本稿では,これらの問題を克服する新しい生成レンダラーTC-Lightを提案する。インフレーションされたビデオリライトモデルで事前にリライトされたビデオから始めて、第1段階での外観埋め込みを最適化し、グローバルな照明を調整します。次に、提案した標準ビデオ表現、すなわちUnique Video Tensor(UVT)を最適化し、第2段階できめ細かいテクスチャと照明を調整する。また,パフォーマンスを総合的に評価するために,長大かつ高ダイナミックなビデオベンチマークを構築した。大規模な実験により,時間的コヒーレンスと計算コストの低い物理的に妥当な再レンダリング結果が得られた。コードとビデオのデモはhttps://dekuliutesla.github.io/tclight/で公開されている。

関連論文リスト

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion [52.420894727186216]
Light-A-Videoは、時間的にスムーズなビデオリライティングを実現するためのトレーニング不要のアプローチである。 Light-A-Videoは、画像のリライティングモデルに適応して、照明の一貫性を高める2つの重要な技術を導入している。
論文参考訳（メタデータ） (2025-02-12T17:24:19Z)
Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT [98.56372305225271]
Lumina-Nextは、Next-DiTによる画像生成において、例外的なパフォーマンスを実現している。 Lumina-VideoにはマルチスケールのNext-DiTアーキテクチャが組み込まれており、複数のパッチを共同で学習している。本稿では,Next-DiTに基づく音声合成モデルであるLumina-V2Aを提案する。
論文参考訳（メタデータ） (2025-02-10T18:58:11Z)
DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models [83.28670336340608]
逆レンダリングとフォワードレンダリングの二重問題に対処するニューラルアプローチであるDiffusionRendererを導入する。本モデルは,リライティング,素材編集,現実的なオブジェクト挿入など,単一のビデオ入力から現実的な応用を可能にする。
論文参考訳（メタデータ） (2025-01-30T18:59:11Z)
EnvGS: Modeling View-Dependent Appearance with Environment Gaussian [78.74634059559891]
EnvGSは、環境の反射を捉えるための明示的な3D表現として、ガウスプリミティブのセットを利用する新しいアプローチである。これらの環境を効率的にレンダリングするために,高速レンダリングにGPUのRTコアを利用するレイトレーシングベースのリフレクションを開発した。複数の実世界および合成データセットから得られた結果は,本手法がより詳細な反射を生成することを示す。
論文参考訳（メタデータ） (2024-12-19T18:59:57Z)
GenLit: Reformulating Single-Image Relighting as Video Generation [39.06560955055697]
我々は、映像生成モデルに光操作を行うためのグラフィックスエンジンの能力を蒸留するフレームワークであるGenLitを紹介する。小さな合成データセットのみに微調整されたモデルが現実世界のシーンに一般化されることが分かりました。
論文参考訳（メタデータ） (2024-12-15T15:40:40Z)
MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文参考訳（メタデータ） (2024-10-10T07:07:56Z)
BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文参考訳（メタデータ） (2024-07-03T22:41:49Z)
Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文参考訳（メタデータ） (2024-01-23T18:05:25Z)
Personalized Video Relighting With an At-Home Light Stage [0.0]
我々は,高品質で時間的に一貫した映像をリアルタイムに生成するパーソナライズされたビデオリライティングアルゴリズムを開発した。モニタでYouTubeビデオを見ているユーザの録画をキャプチャすることで、任意の条件下で高品質なリライティングを行うことのできるパーソナライズされたアルゴリズムをトレーニングできることを示す。
論文参考訳（メタデータ） (2023-11-15T10:33:20Z)
VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文参考訳（メタデータ） (2021-07-01T13:55:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。