論文の概要: LoCAtion: Long-time Collaborative Attention Framework for High Dynamic Range Video Reconstruction
- arxiv url: http://arxiv.org/abs/2603.14377v1
- Date: Sun, 15 Mar 2026 13:34:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.782231
- Title: LoCAtion: Long-time Collaborative Attention Framework for High Dynamic Range Video Reconstruction
- Title(参考訳): LoCAtion:高ダイナミックレンジビデオ再構成のための長時間協調注意フレームワーク
- Authors: Qianyu Zhang, Bolun Zheng, Lingyu Zhu, Aiai Huang, Zongpeng Li, Shiqi Wang,
- Abstract要約: 本稿では,脆弱な空間ワープタスクからHDR映像を生成するフレームワークであるLoCAtionを,頑健でアライメントのない協調的特徴ルーティング問題に再構成する。
Locationは最先端の視覚的品質と時間的安定性を実現し、精度と計算効率の非常に競争力のあるバランスを提供する。
- 参考スコア(独自算出の注目度): 17.88716377235245
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Prevailing High Dynamic Range (HDR) video reconstruction methods are fundamentally trapped in a fragile alignment-and-fusion paradigm. While explicit spatial alignment can successfully recover fine details in controlled environments, it becomes a severe bottleneck in unconstrained dynamic scenes. By forcing rigid alignment across unpredictable motions and varying exposures, these methods inevitably translate registration errors into severe ghosting artifacts and temporal flickering. In this paper, we rethink this conventional prerequisite. Recognizing that explicit alignment is inherently vulnerable to real-world complexities, we propose LoCAtion, a Long-time Collaborative Attention framework that reformulates HDR video generation from a fragile spatial warping task into a robust, alignment-free collaborative feature routing problem. Guided by this new formulation, our architecture explicitly decouples the highly entangled reconstruction task. Rather than struggling to rigidly warp neighboring frames, we anchor the scene on a continuous medium-exposure backbone and utilize collaborative attention to dynamically harvest and inject reliable irradiance cues from unaligned exposures. Furthermore, we introduce a learned global sequence solver. By leveraging bidirectional context and long-range temporal modeling, it propagates corrective signals and structural features across the entire sequence, inherently enforcing whole-video coherence and eliminating jitter. Extensive experiments demonstrate that LoCAtion achieves state-of-the-art visual quality and temporal stability, offering a highly competitive balance between accuracy and computational efficiency.
- Abstract(参考訳): 高ダイナミックレンジ (HDR) ビデオ再構成法は, 脆弱なアライメント・アンド・フュージョンのパラダイムに根本的に閉じ込められている。
空間的アライメントは制御された環境の細部を再現できるが、制約のない動的シーンでは深刻なボトルネックとなる。
予測不可能な動きと様々な露出に厳密なアライメントを強制することにより、登録ミスを必然的に深刻なゴーストや時間的ひねりに翻訳する。
本稿では,従来の前提条件を再考する。
実世界の複雑度に対して,明示的なアライメントが本質的に脆弱であることを認識し,脆弱な空間整合タスクからHDRビデオ生成を頑健でアライメントのない協調的特徴ルーティング問題に再構成する長期協調型アテンションフレームワークであるLoCAtionを提案する。
この新たな定式化によって、アーキテクチャは、高度に絡み合った再構築タスクを明示的に分離する。
周囲のフレームを厳格に歪めるのに苦労する代わりに、連続した中露出バックボーンにシーンを固定し、協調的な注意を生かして動的に収穫し、不整合露光から信頼性のある照射キューを注入する。
さらに,学習したグローバルシーケンスソルバを導入する。
双方向のコンテキストと長距離時間モデリングを活用することで、全シーケンスにわたって補正信号と構造的特徴を伝播し、本質的にビデオ全体のコヒーレンスを強制しジッタを除去する。
大規模な実験により、LoCationは最先端の視覚的品質と時間的安定性を達成し、精度と計算効率の高度に競争力のあるバランスを提供することを示した。
関連論文リスト
- OSDEnhancer: Taming Real-World Space-Time Video Super-Resolution with One-Step Diffusion [64.10689934231165]
ビデオスーパーレゾリューションモデル(DM)は、ビデオスーパーレゾリューション(VSR)において極めて成功している。
時空ビデオスーパーレゾリューション(STVSR)の可能性は、低解像度から高解像度までのリアルな視覚コンテンツを回復する必要があるが、コヒーレントなダイナミックスでフレームレートを改善する必要がある。
提案するOSDEnhancerは,効率的なワンステップ拡散プロセスにより,実世界のSTVSRを初期化するための最初の手法である。
実験により,提案手法は実世界のシナリオにおいて優れた性能を維持しつつ,最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T06:59:55Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - Occlusion-Aware Temporally Consistent Amodal Completion for 3D Human-Object Interaction Reconstruction [29.807994561746437]
本稿では,モノクロ映像から動的物体間相互作用を再構築するための新しい枠組みを提案する。
本手法は時間的コンテキストを統合し,ビデオシーケンス間のコヒーレンスを漸進的に洗練し,再構成を安定化させる。
難解な単眼ビデオに対する3Dガウススプラッティングによるアプローチの有効性を検証した。
論文 参考訳(メタデータ) (2025-07-10T19:56:10Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。