Fugu-MT 論文翻訳(概要): How deep is your encoder: an analysis of features descriptors for an autoencoder-based audio-visual quality metric

論文の概要: How deep is your encoder: an analysis of features descriptors for an autoencoder-based audio-visual quality metric

arxiv url: http://arxiv.org/abs/2003.11100v1
Date: Tue, 24 Mar 2020 20:15:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 09:00:58.861899
Title: How deep is your encoder: an analysis of features descriptors for an autoencoder-based audio-visual quality metric
Title（参考訳）: エンコーダの深さ:オートエンコーダによるオーディオ視覚品質測定のための特徴記述子の分析
Authors: Helard Martinez and Andrew Hines and Mylene C. Q. Farias
Abstract要約: No-Reference Audio-Visual Quality Metric Based on a Deep Autoencoder (NAViDAd)は、機械学習の観点からこの問題を扱う。 NAViDAdの基本的な実装は、様々なオーディオヴィジュアルデータベースでテストされた正確な予測を生成することができた。
参考スコア（独自算出の注目度）: 2.191505742658975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The development of audio-visual quality assessment models poses a number of challenges in order to obtain accurate predictions. One of these challenges is the modelling of the complex interaction that audio and visual stimuli have and how this interaction is interpreted by human users. The No-Reference Audio-Visual Quality Metric Based on a Deep Autoencoder (NAViDAd) deals with this problem from a machine learning perspective. The metric receives two sets of audio and video features descriptors and produces a low-dimensional set of features used to predict the audio-visual quality. A basic implementation of NAViDAd was able to produce accurate predictions tested with a range of different audio-visual databases. The current work performs an ablation study on the base architecture of the metric. Several modules are removed or re-trained using different configurations to have a better understanding of the metric functionality. The results presented in this study provided important feedback that allows us to understand the real capacity of the metric's architecture and eventually develop a much better audio-visual quality metric.
Abstract（参考訳）: 音響視覚品質評価モデルの開発は、正確な予測を得るために多くの課題を提起する。これらの課題の1つは、オーディオと視覚刺激が持つ複雑な相互作用のモデル化と、この相互作用が人間のユーザによってどのように解釈されるかである。 No-Reference Audio-Visual Quality Metric Based on a Deep Autoencoder (NAViDAd)は、機械学習の観点からこの問題を扱う。このメトリックは2セットのオーディオとビデオの特徴ディスクリプタを受け取り、オーディオと視覚の質を予測するために使用される低次元の機能セットを生成する。 NAViDAdの基本的な実装は、様々なオーディオ視覚データベースでテストされた正確な予測を生成することができた。現在の研究は、計量の基底構造に関するアブレーション研究を行っている。いくつかのモジュールは、メトリック機能をよりよく理解するために、異なる設定を使用して削除または再訓練される。この研究で得られた結果は重要なフィードバックを提供し、メトリックのアーキテクチャの実際の能力を理解し、最終的にはより優れたオーディオ・視覚品質のメトリクスを開発することができる。

関連論文リスト

AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文参考訳（メタデータ） (2025-07-17T00:39:18Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Kimi-Audio Technical Report [67.69331679172303]
Kimi-Audioは、オーディオ理解、生成、会話に優れたオープンソースのオーディオ基礎モデルである。モデルアーキテクチャ、データキュレーション、トレーニングレシピ、推論デプロイメント、評価を含む、Kim-Audioの構築プラクティスについて詳述する。
論文参考訳（メタデータ） (2025-04-25T15:31:46Z)
Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文参考訳（メタデータ） (2024-10-31T20:26:26Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。 AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
Visually-Guided Sound Source Separation with Audio-Visual Predictive Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文参考訳（メタデータ） (2023-06-19T03:10:57Z)
What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics [44.659718609385315]
そこで本研究では,音声信号の評価に最先端画像知覚メトリクスを応用し,スペクトログラムとして表現することの実現可能性について検討する。我々は、音響信号の特異性を考慮するために、精神音響学的に妥当なアーキテクチャを持つメトリクスの1つをカスタマイズする。提案手法の有効性を音楽データセットを用いて評価した。
論文参考訳（メタデータ） (2023-05-19T10:43:57Z)
Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文参考訳（メタデータ） (2022-08-20T06:46:55Z)
Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文参考訳（メタデータ） (2021-02-11T02:24:00Z)
COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文参考訳（メタデータ） (2020-06-15T13:17:18Z)
Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文参考訳（メタデータ） (2020-04-29T09:32:11Z)
NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文参考訳（メタデータ） (2020-01-30T15:40:08Z)
Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文参考訳（メタデータ） (2020-01-13T18:56:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。