論文の概要: MID: A Self-supervised Multimodal Iterative Denoising Framework
- arxiv url: http://arxiv.org/abs/2511.00997v1
- Date: Sun, 02 Nov 2025 16:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.020527
- Title: MID: A Self-supervised Multimodal Iterative Denoising Framework
- Title(参考訳): MID: 自己管理型マルチモーダルイテレーティブデノゲーションフレームワーク
- Authors: Chang Nie, Tianchen Deng, Zhe Liu, Hesheng Wang,
- Abstract要約: 実世界のデータは、複雑で非線形なノイズによってしばしば破損する。
自己管理型マルチモーダル・イテレーティブ・デノゲーション・フレームワーク MID を提案する。
4つの古典的なコンピュータビジョンタスクによる実験は、MIDの堅牢性、適応性、一貫した最先端性能を示している。
- 参考スコア(独自算出の注目度): 21.9870371385388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data denoising is a persistent challenge across scientific and engineering domains. Real-world data is frequently corrupted by complex, non-linear noise, rendering traditional rule-based denoising methods inadequate. To overcome these obstacles, we propose a novel self-supervised multimodal iterative denoising (MID) framework. MID models the collected noisy data as a state within a continuous process of non-linear noise accumulation. By iteratively introducing further noise, MID learns two neural networks: one to estimate the current noise step and another to predict and subtract the corresponding noise increment. For complex non-linear contamination, MID employs a first-order Taylor expansion to locally linearize the noise process, enabling effective iterative removal. Crucially, MID does not require paired clean-noisy datasets, as it learns noise characteristics directly from the noisy inputs. Experiments across four classic computer vision tasks demonstrate MID's robustness, adaptability, and consistent state-of-the-art performance. Moreover, MID exhibits strong performance and adaptability in tasks within the biomedical and bioinformatics domains.
- Abstract(参考訳): データデノイングは、科学と工学の領域にまたがる永続的な課題である。
実世界のデータは、複雑で非線形なノイズによってしばしば破損し、従来のルールベースの denoising メソッドが不十分である。
これらの障害を克服するために,新しい自己教師型マルチモーダル・イテレーティブ・デノイング(MID)フレームワークを提案する。
MIDは収集したノイズデータを非線形ノイズ蓄積の連続過程における状態としてモデル化する。
さらにノイズを反復的に導入することで、MIDは現在のノイズステップを推定するニューラルネットワークと、対応するノイズインクリメントを予測および減算するニューラルネットワークの2つを学ぶ。
複雑な非線形汚染に対して、MIDは1階のテイラー展開を用いて雑音過程を局所的に線形化し、効果的な反復除去を可能にする。
重要なことは、MIDはノイズ入力から直接ノイズ特性を学習するため、ペアのクリーンノイズデータセットを必要としない。
4つの古典的なコンピュータビジョンタスクによる実験は、MIDの堅牢性、適応性、一貫した最先端性能を示している。
さらに、MIDは、バイオメディカルおよびバイオインフォマティクス領域内のタスクにおいて、高いパフォーマンスと適応性を示す。
関連論文リスト
- Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance [54.88271057438763]
ノイズアウェアネスガイダンス (NAG) は、事前に定義された騒音スケジュールと整合性を保つために、サンプリング軌道を明示的に制御する補正手法である。
NAGは一貫してノイズシフトを緩和し、主流拡散モデルの生成品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-10-14T13:31:34Z) - Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios [10.57695963534794]
VAEに基づく手法には、局所的なジッタとグローバルな不安定性の問題が伴う。
本稿では,音声制御信号を捕捉し,拡散段差と発声段差の多モーダル denoising 分布を暗黙的に一致させる条件付き GAN を提案する。
論文 参考訳(メタデータ) (2024-10-27T07:25:11Z) - Learning Noise-Robust Joint Representation for Multimodal Emotion Recognition under Incomplete Data Scenarios [23.43319138048058]
実践シナリオにおけるマルチモーダル感情認識(MER)は、欠落したデータや不完全なデータの存在によって著しく困難である。
従来の手法では、データを捨てたり、データセグメントをゼロベクトルで置換することで、これらの不完全性を近似することが多い。
本稿では,雑音データから頑健なマルチモーダル関節表現を効果的に学習する新しいノイズローバストMERモデルを提案する。
論文 参考訳(メタデータ) (2023-09-21T10:49:02Z) - Realistic Noise Synthesis with Diffusion Models [44.404059914652194]
ディープラーニングモデルには、大規模な実世界のトレーニングデータが必要です。
本稿では,これらの課題に対処するために拡散モデルを用いた新しい実音合成拡散器(RNSD)法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - A Free Lunch to Person Re-identification: Learning from Automatically
Generated Noisy Tracklets [52.30547023041587]
非教師付きビデオベース再識別(re-ID)手法は、re-IDデータセットのアノテートに必要な高コストの問題を解決するために提案されている。
しかし、彼らのパフォーマンスは監督対象よりもはるかに低い。
本稿では,自動生成人追跡装置から再IDモデルを学習することで,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-04-02T16:18:13Z) - Adaptive noise imitation for image denoising [58.21456707617451]
本研究では,自然雑音画像からノイズデータを合成できる新しいテキストバッファ適応ノイズ模倣(ADANI)アルゴリズムを開発した。
現実的なノイズを生成するため、ノイズ発生装置はノイズ発生のガイドとなる雑音/クリーン画像を入力として利用する。
ADANIから出力されるノイズデータとそれに対応する基盤構造とを結合すると、デノイングCNNは、完全に教師された方法で訓練される。
論文 参考訳(メタデータ) (2020-11-30T02:49:36Z) - Learning Model-Blind Temporal Denoisers without Ground Truths [46.778450578529814]
合成データで訓練されたデノイザーは、未知のノイズの多様性に対処できないことが多い。
従来の画像ベース手法は、ビデオデノイザに直接適用した場合、ノイズが過度に収まる。
本稿では,これらの課題に対処する上で有効な,ビデオ・デノベーション・ネットワークの汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-07T07:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。