論文の概要: Model as Loss: A Self-Consistent Training Paradigm
- arxiv url: http://arxiv.org/abs/2505.21156v1
- Date: Tue, 27 May 2025 13:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.66168
- Title: Model as Loss: A Self-Consistent Training Paradigm
- Title(参考訳): 損失としてのモデル: 自己持続的なトレーニングパラダイム
- Authors: Saisamarth Rajesh Phaye, Milos Cernak, Andrew Harper,
- Abstract要約: 我々は、損失関数と同じモデルからエンコーダを利用してトレーニングをガイドする新しい訓練パラダイムであるモデル・アズ・ロスを提案する。
このフレームワークは,学習したエンコーダの機能を損失関数として利用することにより,クリーン参照音声と拡張モデル出力との自己整合性を実現する。
提案手法は,標準音声強調ベンチマークにおいて,事前学習した特徴量よりも優れていた。
- 参考スコア(独自算出の注目度): 8.694495827728101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional methods for speech enhancement rely on handcrafted loss functions (e.g., time or frequency domain losses) or deep feature losses (e.g., using WavLM or wav2vec), which often fail to capture subtle signal properties essential for optimal performance. To address this, we propose Model as Loss, a novel training paradigm that utilizes the encoder from the same model as a loss function to guide the training. The Model as Loss paradigm leverages the encoder's task-specific feature space, optimizing the decoder to produce output consistent with perceptual and task-relevant characteristics of the clean signal. By using the encoder's learned features as a loss function, this framework enforces self-consistency between the clean reference speech and the enhanced model output. Our approach outperforms pre-trained deep feature losses on standard speech enhancement benchmarks, offering better perceptual quality and robust generalization to both in-domain and out-of-domain datasets.
- Abstract(参考訳): 従来の音声強調手法は手作りの損失関数(例えば、時間や周波数領域の損失)や深い特徴損失(例えば、WavLMやwav2vec)に依存しており、これは最適な性能に不可欠な微妙な信号特性を捉えるのに失敗する。
そこで本研究では,モデル・アズ・ロス(Model as Loss)を提案する。
モデル・アズ・ロスのパラダイムは、エンコーダのタスク固有の特徴空間を活用し、クリーン信号の知覚的およびタスク関連特性と整合した出力を生成するためにデコーダを最適化する。
このフレームワークは,学習したエンコーダの機能を損失関数として利用することにより,クリーン参照音声と拡張モデル出力との自己整合性を実現する。
提案手法は、標準音声強調ベンチマークにおいて、事前訓練された特徴損失よりも優れており、ドメイン内およびドメイン外の両方のデータセットに対して、知覚的品質と堅牢な一般化を提供する。
関連論文リスト
- PAGE: Parametric Generative Explainer for Graph Neural Network [16.350208494261913]
PAGEは、事前の知識や内部の詳細を必要とせずに、グラフニューラルネットワークに対して忠実な説明を提供することができる。
我々は,潜在因果関係の特徴とモデル出力の因果関係を捉えるために,新たな判別器を導入する。
既存の方法と比較して、PAGEはノードやエッジではなく、サンプルスケールで動作する。
論文 参考訳(メタデータ) (2024-08-26T06:39:49Z) - Lai Loss: A Novel Loss for Gradient Control [0.0]
ライロス」は、正規化項(特に勾配)を従来の損失関数に統合した新しい損失設計である。
この損失により、モデルの滑らかさと感度を効果的に制御できる。
論文 参考訳(メタデータ) (2024-05-13T16:17:57Z) - High-level Feature Guided Decoding for Semantic Segmentation [54.424062794490254]
そこで本稿では,アップサンプラーが頑健な結果を得るためのガイダンス(HFG)として,強力な事前学習高レベル機能を提案する。
具体的には、バックボーンの高レベルな機能はクラストークンのトレーニングに使用され、クラストークンはクラス分類のためにアップサンプラーによって再利用される。
HFGの上限を押し上げるために、低解像度の高レベル特徴に対して効率よく効果的に操作できる文脈拡張エンコーダ(CAE)を導入する。
論文 参考訳(メタデータ) (2023-03-15T14:23:07Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Improved Natural Language Generation via Loss Truncation [29.676561106319173]
識別性は、無効な参照を扱うための原則的で堅牢な代替手段であることを示す。
学習中に高損失例を適応的に除去する損失トランケーションを提案する。
これは、ログの損失やノイズ下での識別性を厳格に制限するのと同じくらい簡単に最適化できることを示している。
論文 参考訳(メタデータ) (2020-04-30T05:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。