論文の概要: CORN: Co-Trained Full-Reference And No-Reference Audio Metrics
- arxiv url: http://arxiv.org/abs/2310.09388v1
- Date: Fri, 13 Oct 2023 20:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 02:16:44.508105
- Title: CORN: Co-Trained Full-Reference And No-Reference Audio Metrics
- Title(参考訳): CORN: 完全参照と非参照オーディオメトリクスを併用
- Authors: Pranay Manocha, Donald Williamson, Adam Finkelstein
- Abstract要約: No-Reference(NR)メトリクスは、参照に頼ることなく記録を評価する。
我々は、これらの2つのアプローチを調和させるCORNと呼ばれる新しいフレームワークを提案する。
CORNは、独立して訓練されたベースラインNRモデルより一貫して優れている。
- 参考スコア(独自算出の注目度): 16.23732004215614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perceptual evaluation constitutes a crucial aspect of various
audio-processing tasks. Full reference (FR) or similarity-based metrics rely on
high-quality reference recordings, to which lower-quality or corrupted versions
of the recording may be compared for evaluation. In contrast, no-reference (NR)
metrics evaluate a recording without relying on a reference. Both the FR and NR
approaches exhibit advantages and drawbacks relative to each other. In this
paper, we present a novel framework called CORN that amalgamates these dual
approaches, concurrently training both FR and NR models together. After
training, the models can be applied independently. We evaluate CORN by
predicting several common objective metrics and across two different
architectures. The NR model trained using CORN has access to a reference
recording during training, and thus, as one would expect, it consistently
outperforms baseline NR models trained independently. Perhaps even more
remarkable is that the CORN FR model also outperforms its baseline counterpart,
even though it relies on the same training data and the same model
architecture. Thus, a single training regime produces two independently useful
models, each outperforming independently trained models.
- Abstract(参考訳): 知覚評価は様々な音声処理タスクにおいて重要な要素である。
フルレファレンス(FR)または類似度に基づくメトリクスは高品質なレファレンス記録に依存しており、低いレファレンスまたは破損したバージョンを比較して評価することができる。
対照的に、No-Reference(NR)メトリクスは、参照に頼ることなく記録を評価する。
FRとNRのアプローチはどちらも、互いに利点と欠点を示している。
本稿では,これら2つのアプローチを両立させ,FRモデルとNRモデルを同時に訓練するCORNという新しいフレームワークを提案する。
トレーニング後、モデルは独立して適用できる。
我々は、いくつかの共通の客観的指標を予測し、2つの異なるアーキテクチャを通してコーンを評価する。
CORNを用いてトレーニングされたNRモデルは、トレーニング中に基準記録にアクセスでき、予想されるように、独立にトレーニングされたベースラインNRモデルを上回っている。
さらに注目すべきは、同じトレーニングデータと同じモデルアーキテクチャに依存しているにもかかわらず、CORN FRモデルがベースラインモデルを上回ることだ。
したがって、単一のトレーニングレジームは2つの独立した有用なモデルを生成し、それぞれが独立に訓練されたモデルを上回る。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Few-shot Prompting for Pairwise Ranking: An Effective Non-Parametric Retrieval Model [18.111868378615206]
本稿では,複雑な訓練パイプラインを必要とせず,教師付きモデルに近い性能を達成できる一対数ショットローダを提案する。
また,複雑なトレーニングパイプラインを必要とせず,教師付きモデルに近い性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T11:19:09Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Leveraging Diverse Modeling Contexts with Collaborating Learning for
Neural Machine Translation [26.823126615724888]
自己回帰(AR)モデルと非自己回帰(NAR)モデル(NAR)モデルはニューラルマシン翻訳(NMT)のための2種類の生成モデルである
本稿では,教師や学生の代わりにARモデルとNARモデルを協調者として扱う,新しい総合的協調学習手法であるDCMCLを提案する。
論文 参考訳(メタデータ) (2024-02-28T15:55:02Z) - Universal Semi-supervised Model Adaptation via Collaborative Consistency
Training [92.52892510093037]
我々は、Universal Semi-supervised Model Adaptation (USMA)と呼ばれる現実的で挑戦的なドメイン適応問題を導入する。
本稿では,2つのモデル間の予測整合性を規則化する協調的整合性トレーニングフレームワークを提案する。
実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-07-07T08:19:40Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Raw waveform speaker verification for supervised and self-supervised
learning [30.08242210230669]
本稿では,話者検証に有効な手法を取り入れた新しい生波形話者検証モデルを提案する。
最も優れた構成の下では、このモデルは、最先端のモデルと競合する0.89%のエラー率を示す。
また、自己教師型学習フレームワークを用いて、提案モデルについて検討し、この研究シリーズにおける最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-16T09:28:03Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。