論文の概要: Personalized Audio Quality Preference Prediction
- arxiv url: http://arxiv.org/abs/2302.08130v1
- Date: Thu, 16 Feb 2023 07:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 14:45:44.755090
- Title: Personalized Audio Quality Preference Prediction
- Title(参考訳): パーソナライズされたオーディオ品質予測
- Authors: Chung-Che Wang, Yu-Chun Lin, Yu-Teng Hsu, Jyh-Shing Roger Jang
- Abstract要約: シアムネットワークは入力を比較し、好みを予測するために使用される。
年齢、性別、ヘッドフォンやイヤホンの仕様など、すべての主題情報を使用することは、その一部だけを使用することよりも効果的である。
- 参考スコア(独自算出の注目度): 6.748225062396441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes to use both audio input and subject information to
predict the personalized preference of two audio segments with the same content
in different qualities. A siamese network is used to compare the inputs and
predict the preference. Several different structures for each side of the
siamese network are investigated, and an LDNet with PANNs' CNN6 as the encoder
and a multi-layer perceptron block as the decoder outperforms a baseline model
using only audio input the most, where the overall accuracy grows from 77.56%
to 78.04%. Experimental results also show that using all the subject
information, including age, gender, and the specifications of headphones or
earphones, is more effective than using only a part of them.
- Abstract(参考訳): 本稿では,音声入力と主題情報の両方を用いて,同一内容の異なる2つの音声セグメントのパーソナライズされた嗜好を予測することを提案する。
siameseネットワークは、入力を比較し、好みを予測するために使用される。
シアムネットワークの各側におけるいくつかの異なる構造を調査し、エンコーダとしてPANNsのCNN6を、デコーダとして多層パーセプトロンブロックを併用したLDNetは、オーディオ入力のみを用いてベースラインモデルより優れており、全体的な精度は77.56%から78.04%に向上する。
実験の結果、年齢、性別、ヘッドフォンやイヤホンの仕様を含むすべての主題情報の使用は、それらの一部の使用よりも効果的であることが判明した。
関連論文リスト
- AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - Contrastive Environmental Sound Representation Learning [6.85316573653194]
我々は,自己監督型コントラスト手法と浅い1次元CNNを利用して,明示的なアノテーションを使わずに独特の音声特徴(音響表現)を抽出する。
生音声波形とスペクトログラムの両方を用いて、所定の音声の表現を生成し、提案した学習者が音声入力の種類に依存しないかどうかを評価する。
論文 参考訳(メタデータ) (2022-07-18T16:56:30Z) - Investigating Multi-Feature Selection and Ensembling for Audio
Classification [0.8602553195689513]
ディープラーニングアルゴリズムは、様々な領域で素晴らしいパフォーマンスを示している。
オーディオはここ数十年、興味深いパターンのために多くの研究者を惹きつけてきた。
音声分類の性能向上のために、特徴選択と組み合わせが重要な役割を担っている。
論文 参考訳(メタデータ) (2022-06-15T13:11:08Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Audio Interval Retrieval using Convolutional Neural Networks [0.0]
本稿では,自然言語クエリに基づく音声イベント検索の可能性を検討することを目的とする。
特に、オーディオサンプルを自動的に分類するために、YamNet、AlexNet、ResNet-50の事前訓練モデルに焦点を当てます。
結果,ベンチマークモデルの性能は同等であり,YamNetは他の2モデルよりも若干優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:32:18Z) - AST: Audio Spectrogram Transformer [21.46018186487818]
オーディオ分類のための最初の畳み込みのない、純粋に注意に基づくモデルであるAudio Spectrogram Transformer(AST)を紹介します。
ASTはAudioSetの0.485 mAP、ESC-50の95.6%、音声コマンドV2の98.1%の精度で新しい最先端の結果を達成している。
論文 参考訳(メタデータ) (2021-04-05T05:26:29Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep
Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。
このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。
このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文 参考訳(メタデータ) (2020-01-30T15:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。