Fugu-MT 論文翻訳(概要): FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration

論文の概要: FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration

arxiv url: http://arxiv.org/abs/2412.01427v1
Date: Mon, 02 Dec 2024 12:08:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.542838
Title: FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration
Title（参考訳）: FoundIR:数百万のトレーニングデータを公開し、画像復元のための基礎モデルを推進
Authors: Hao Li, Xiang Chen, Jiangxin Dong, Jinhui Tang, Jinshan Pan,
Abstract要約: 既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
参考スコア（独自算出の注目度）: 66.61201445650323
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the significant progress made by all-in-one models in universal image restoration, existing methods suffer from a generalization bottleneck in real-world scenarios, as they are mostly trained on small-scale synthetic datasets with limited degradations. Therefore, large-scale high-quality real-world training data is urgently needed to facilitate the emergence of foundational models for image restoration. To advance this field, we spare no effort in contributing a million-scale dataset with two notable advantages over existing training data: real-world samples with larger-scale, and degradation types with higher diversity. By adjusting internal camera settings and external imaging conditions, we can capture aligned image pairs using our well-designed data acquisition system over multiple rounds and our data alignment criterion. Moreover, we propose a robust model, FoundIR, to better address a broader range of restoration tasks in real-world scenarios, taking a further step toward foundation models. Specifically, we first utilize a diffusion-based generalist model to remove degradations by learning the degradation-agnostic common representations from diverse inputs, where incremental learning strategy is adopted to better guide model training. To refine the model's restoration capability in complex scenarios, we introduce degradation-aware specialist models for achieving final high-quality results. Extensive experiments show the value of our dataset and the effectiveness of our method.
Abstract（参考訳）: 汎用画像復元におけるオールインワンモデルによる顕著な進歩にもかかわらず、既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされており、ほとんどは分解が限定された小規模な合成データセットで訓練されている。そのため,画像復元のための基礎モデルの出現を促進するために,大規模で高品質な実世界のトレーニングデータが必要である。この領域を前進させるために、既存のトレーニングデータよりも2つの顕著な利点がある100万件のデータセットへの貢献に余計な努力を要した。内部カメラ設定と外部撮像条件を調整することで、よく設計されたデータ取得システムとデータアライメント基準を用いて、整列した画像対をキャプチャできる。さらに,現実シナリオにおける広範囲な復元作業に対処するための堅牢なモデルFoundIRを提案し,基礎モデルへのさらなる一歩を踏み出した。具体的には、まず拡散に基づく一般化モデルを用いて、多種多様な入力から劣化に依存しない共通表現を学習することで劣化を除去し、モデルトレーニングを改善するために漸進的な学習戦略を採用する。複雑なシナリオにおいてモデルの復元能力を向上するために,最終的な高品質な結果を得るための劣化認識スペシャリストモデルを導入する。大規模な実験により、我々のデータセットの価値と方法の有効性が示された。

関連論文リスト

UniDemoiré: Towards Universal Image Demoiréing with Data Generation and Synthesis [17.930454451440944]
Image demoir'eingは、画像修復において最も恐ろしい課題の1つだ。より優れた一般化能力を有するユニバーサル画像復号法UniDemoir'eを提案する。
論文参考訳（メタデータ） (2025-02-10T10:20:11Z)
Unpaired Deblurring via Decoupled Diffusion Model [55.21345354747609]
UID-Diffは,未知領域における劣化性能の向上を目的とした生成拡散モデルである。構造的特徴とぼかしパターン抽出器を別々に用いて, 抽出した特徴は, 合成データに対する教師付きデブロアリングタスクと教師なしのぼかし転送タスクに使用される。実世界のデータセットの実験では、UID-Diffが既存の最先端の手法よりも、ぼやけた除去と構造保存に優れていることが示されている。
論文参考訳（メタデータ） (2025-02-03T17:00:40Z)
Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文参考訳（メタデータ） (2025-01-31T09:53:47Z)
Adaptive Blind All-in-One Image Restoration [15.726917603679716]
ブラインドオールインワン画像復元モデルは、未知の歪みで劣化した入力から高品質な画像を復元することを目的としている。これらのモデルでは、トレーニング段階では可能なすべての分解タイプを定義しながら、目に見えない分解に対して限定的な一般化を示す必要がある。複数の劣化に対処し、目に見えない劣化を一般化し、少数のパラメータをトレーニングすることで、新しい劣化を効果的に組み込むことができる、単純で効果的な適応型ブラインド・イン・ワン復元モデルを提案する。
論文参考訳（メタデータ） (2024-11-27T14:58:08Z)
DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation [46.22939360256696]
我々は、革新的なデータキュレーションパイプラインであるGenIRと、最先端の拡散変換器(DiT)ベースの画像復元モデルであるDreamClearの2つの戦略を提案する。我々の先駆的な貢献であるGenIRは、既存のデータセットの制限を克服するデュアルプロンプト学習パイプラインです。 DreamClear は DiT ベースの画像復元モデルである。テキスト・ツー・イメージ(T2I)拡散モデルの生成先行と,マルチモーダル大言語モデル(MLLM)の堅牢な知覚能力を利用して復元を実現する。
論文参考訳（メタデータ） (2024-10-24T11:57:20Z)
Towards Realistic Data Generation for Real-World Super-Resolution [58.88039242455039]
RealDGenは、現実世界の超解像のために設計された教師なし学習データ生成フレームワークである。我々は,コンテンツ分解脱結合拡散モデルに統合されたコンテンツと劣化抽出戦略を開発する。実験により、RealDGenは、現実世界の劣化を反映する大規模で高品質なペアデータを生成するのに優れていることが示された。
論文参考訳（メタデータ） (2024-06-11T13:34:57Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
Diffusion Models for Image Restoration and Enhancement -- A Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文参考訳（メタデータ） (2023-08-18T08:40:38Z)
DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文参考訳（メタデータ） (2023-04-14T15:12:19Z)
Real-World Image Super-Resolution by Exclusionary Dual-Learning [98.36096041099906]
実世界の画像超解像は,高品質な画像を得るための実用的な画像復元問題である。深層学習に基づく手法は、現実世界の超解像データセットの復元に期待できる品質を実現している。本稿では,RWSR-EDL(Real-World Image Super-Resolution by Exclusionary Dual-Learning)を提案する。
論文参考訳（メタデータ） (2022-06-06T13:28:15Z)
Single Image Internal Distribution Measurement Using Non-Local Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。 textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。 7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文参考訳（メタデータ） (2022-04-02T18:43:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。