Fugu-MT 論文翻訳(概要): UVEB: A Large-scale Benchmark and Baseline Towards Real-World Underwater Video Enhancement

論文の概要: UVEB: A Large-scale Benchmark and Baseline Towards Real-World Underwater Video Enhancement

arxiv url: http://arxiv.org/abs/2404.14542v1
Date: Mon, 22 Apr 2024 19:29:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 17:57:44.638010
Title: UVEB: A Large-scale Benchmark and Baseline Towards Real-World Underwater Video Enhancement
Title（参考訳）: UVEB: 大規模ベンチマークとベースラインによる水中ビデオのリアルタイム化
Authors: Yaofeng Xie, Lingwei Kong, Kai Chen, Ziqiang Zheng, Xiao Yu, Zhibin Yu, Bing Zheng,
Abstract要約: 最初の大規模高解像度水中ビデオ強調ベンチマーク(UVEB)を構築した。 1,308対のビデオシーケンスと453,000以上の高解像度のUHD(Ultra-High-Definition)4Kフレームペアを含んでいる。 UVE-Netは、現在のフレーム情報を畳み込みカーネルに変換し、隣接するフレームに渡して効率的なフレーム間情報交換を行う。
参考スコア（独自算出の注目度）: 17.98919244870724
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning-based underwater image enhancement (UIE) methods have made great progress. However, the lack of large-scale and high-quality paired training samples has become the main bottleneck hindering the development of UIE. The inter-frame information in underwater videos can accelerate or optimize the UIE process. Thus, we constructed the first large-scale high-resolution underwater video enhancement benchmark (UVEB) to promote the development of underwater vision.It contains 1,308 pairs of video sequences and more than 453,000 high-resolution with 38\% Ultra-High-Definition (UHD) 4K frame pairs. UVEB comes from multiple countries, containing various scenes and video degradation types to adapt to diverse and complex underwater environments. We also propose the first supervised underwater video enhancement method, UVE-Net. UVE-Net converts the current frame information into convolutional kernels and passes them to adjacent frames for efficient inter-frame information exchange. By fully utilizing the redundant degraded information of underwater videos, UVE-Net completes video enhancement better. Experiments show the effective network design and good performance of UVE-Net.
Abstract（参考訳）: 学習に基づく水中画像強調法(UIE)は大きな進歩を遂げた。しかし、大規模で高品質なペアリングトレーニングサンプルが欠如していることが、UIEの開発を妨げる主要なボトルネックとなっている。水中ビデオのフレーム間情報はUIEプロセスを加速または最適化することができる。そこで我々は,水中視覚の発達を促進するために,最初の大規模高分解能水中映像強調ベンチマーク (UVEB) を構築し,1,308対のビデオシーケンスと,38\%超高分解能(UHD)4Kフレームペアの453,000超の高分解能映像を含む。 UVEBは複数の国から来ており、多様な水中環境に適応するための様々なシーンとビデオ劣化タイプを含んでいる。また,最初の監視型水中ビデオエンハンスメント手法であるUVE-Netを提案する。 UVE-Netは、現在のフレーム情報を畳み込みカーネルに変換し、隣接するフレームに渡して効率的なフレーム間情報交換を行う。 UVE-Netは、水中ビデオの冗長な劣化情報を十分に活用することで、ビデオの強化をより良くする。実験により,UVE-Netのネットワーク設計と優れた性能が示された。

関連論文リスト

NAUTILUS: A Large Multimodal Model for Underwater Scene Understanding [60.76337064425815]
本研究では,水中の自動探査を目的とした水中シーン理解手法について検討する。 NautDataは、8つの水中シーン理解タスクをサポートする1.45Mイメージテキストペアを含むデータセットである。本稿では,透明な水中情報を明示的に復元するVFEモジュールを提案する。
論文参考訳（メタデータ） (2025-10-31T14:00:35Z)
Seedance 1.0: Exploring the Boundaries of Video Generation Models [71.26796999246068]
Seedance 1.0は高性能で推論効率の良いビデオ基盤生成モデルである。精度と意味のあるビデオキャプションを付加したマルチソースキュレーションデータを統合する。 Seedance 1.0は1080p解像度で5秒のビデオを生成することができる。
論文参考訳（メタデータ） (2025-06-10T17:56:11Z)
Visual enhancement and 3D representation for underwater scenes: a review [13.809193345785388]
水中視覚強調(UVE)と水中3D再構成は、コンピュータビジョンとAIベースのタスクにおいて大きな課題となる。これらの分野での研究を進めるために,我々は多面的な視点から詳細をレビューする。
論文参考訳（メタデータ） (2025-05-03T17:20:24Z)
LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models [17.29580459404157]
本稿では,斬新で高効率なビデオVAEフレームワークLeanVAEを提案する。我々のモデルは最大50倍のFLOPと44倍高速な推論速度を提供する。ビデオ再生・生成におけるLeanVAEの優位性を検証した。
論文参考訳（メタデータ） (2025-03-18T14:58:59Z)
Enhance-A-Video: Better Generated Video for Free [57.620595159855064]
本稿では,DiTをベースとしたビデオのコヒーレンスと品質を高めるためのトレーニング不要な手法を提案する。我々のアプローチは、リトレーニングや微調整なしに、ほとんどのDiTベースのビデオ生成フレームワークに容易に適用できる。
論文参考訳（メタデータ） (2025-02-11T12:22:35Z)
UnDIVE: Generalized Underwater Video Enhancement Using Generative Priors [9.438388237767105]
水中ビデオの強化のための2段階フレームワークを提案する。第1段階では、ラベルなしデータから生成前を学習するために、微分拡散記述モデルを用いている。第2段階では、この前者は空間拡張のための物理ベースの画像定式化に組み込まれる。提案手法は,低解像度の高解像度水中ビデオのリアルタイム・計算効率な処理を可能にする。
論文参考訳（メタデータ） (2024-11-08T11:16:36Z)
Enhancing Underwater Imaging with 4-D Light Fields: Dataset and Method [77.80712860663886]
4次元光場(LF)は、光吸収、散乱、その他の課題に悩まされる水中イメージングを強化する。水中4次元LF画像強調と深度推定のためのプログレッシブフレームワークを提案する。学習手法の定量的評価と教師あり訓練のための,最初の4次元LFに基づく水中画像データセットを構築した。
論文参考訳（メタデータ） (2024-08-30T15:06:45Z)
EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文参考訳（メタデータ） (2024-08-23T11:48:29Z)
LU2Net: A Lightweight Network for Real-time Underwater Image Enhancement [4.353142366661057]
Lightweight Underwater Unet (LU2Net)は、水中画像のリアルタイムエンハンスメントのために設計された新しいU字型ネットワークである。 LU2Netは、現在最先端の水中画像強調法よりも8倍の速度で、十分に強化された水中画像を提供することができる。
論文参考訳（メタデータ） (2024-06-21T08:33:13Z)
Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文参考訳（メタデータ） (2024-06-12T01:12:53Z)
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文参考訳（メタデータ） (2024-06-10T17:02:08Z)
End-To-End Underwater Video Enhancement: Dataset and Model [6.153714458213646]
水中ビデオエンハンスメント(UVE)は、水中ビデオの可視性とフレーム品質を改善することを目的としている。既存の手法は主に、各フレームを独立して拡張する画像強調アルゴリズムの開発に重点を置いている。この研究は、私たちの知識に対するUVEの総合的な探索である。
論文参考訳（メタデータ） (2024-03-18T06:24:46Z)
Event-guided Multi-patch Network with Self-supervision for Non-uniform Motion Deblurring [113.96237446327795]
本稿では,ぼやけた画像やビデオを扱うための,イベント誘導型深層階層型マルチパッチネットワークを提案する。また、ビデオ内の複雑なぼやけに対処するために、動画に含まれる動きの手がかりを利用するイベント誘導アーキテクチャを提案する。我々のMPNは、現在のマルチスケール手法に比べて40倍高速なランタイムでGoProとVideoDeblurringデータセットの最先端を達成しています。
論文参考訳（メタデータ） (2023-02-14T15:58:00Z)
Medium Transmission Map Matters for Learning to Restore Real-World Underwater Images [3.0980025155565376]
画像強調を支援するためのガイダンスとしてメディア送信マップを導入する。提案手法は,既存のモデルより30倍高速なテストR90において,22.6dBの高度な結果が得られる。
論文参考訳（メタデータ） (2022-03-17T16:13:52Z)
Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文参考訳（メタデータ） (2022-01-27T16:38:52Z)
LAFFNet: A Lightweight Adaptive Feature Fusion Network for Underwater Image Enhancement [6.338178373376447]
水中画像強調のための軽量適応機能融合ネットワーク (LAFFNet) を提案する。提案手法はパラメータ数を2.5Mから0.15Mに削減するが,実験により最先端のアルゴリズムよりも優れる。
論文参考訳（メタデータ） (2021-05-04T05:31:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。