論文の概要: LLM-Guided Reinforcement Learning for Audio-Visual Speech Enhancement
- arxiv url: http://arxiv.org/abs/2603.13952v2
- Date: Tue, 17 Mar 2026 11:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 13:19:43.854576
- Title: LLM-Guided Reinforcement Learning for Audio-Visual Speech Enhancement
- Title(参考訳): LLMによる音声強調のための強化学習
- Authors: Chih-Ning Chen, Jen-Cheng Hou, Hsin-Min Wang, Shao-Yi Chien, Yu Tsao, Fan-Gang Zeng,
- Abstract要約: 本研究では,Large Language Model (LLM)に基づく解釈可能な報酬モデルを用いた強化学習に基づくAVSEフレームワークを提案する。
音声LLMは、強調音声の自然言語記述を生成し、感情分析モデルにより、事前訓練されたAVSEモデルを微調整するためのPPO報酬として機能する1-5レーティングスコアに変換する。
- 参考スコア(独自算出の注目度): 26.999833193232874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In existing Audio-Visual Speech Enhancement (AVSE) methods, objectives such as Scale-Invariant Signal-to-Noise Ratio (SI-SNR) and Mean Squared Error (MSE) are widely used; however, they often correlate poorly with perceptual quality and provide limited interpretability for optimization. This work proposes a reinforcement learning-based AVSE framework with a Large Language Model (LLM)-based interpretable reward model. An audio LLM generates natural language descriptions of enhanced speech, which are converted by a sentiment analysis model into a 1-5 rating score serving as the PPO reward for fine-tuning a pretrained AVSE model. Compared with scalar metrics, LLM-generated feedback is semantically rich and explicitly describes improvements in speech quality. Experiments on the 4th COG-MHEAR AVSE Challenge (AVSEC-4) dataset show that the proposed method outperforms a supervised baseline and a DNSMOS-based RL baseline in PESQ, STOI, neural quality metrics, and subjective listening tests.
- Abstract(参考訳): 既存の音声強調法(AVSE)では、SI-SNR(SI-SNR)やMean Squared Error(MSE)などの目的が広く用いられているが、知覚品質と相関が低く、最適化のための限定的な解釈性を提供することが多い。
本研究では,Large Language Model (LLM)に基づく解釈可能な報酬モデルを用いた強化学習に基づくAVSEフレームワークを提案する。
音声LLMは、強調音声の自然言語記述を生成し、感情分析モデルにより、事前訓練されたAVSEモデルを微調整するためのPPO報酬として機能する1-5レーティングスコアに変換する。
スカラーメトリクスと比較すると、LLM生成したフィードバックは意味的に豊かであり、音声品質の改善を明示している。
第4回COG-MHEAR AVSE Challenge(AVSEC-4)データセットの実験では、提案手法は、PESQ、STOI、神経質指標、主観的聴取テストにおいて、教師付きベースラインとDNSMOSベースのRLベースラインを上回っている。
関連論文リスト
- A SUPERB-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection [2.432576583937997]
Spoof-SUPERBはオーディオディープフェイク検出のためのベンチマークである。
生成性,差別性,およびスペクトログラムに基づくアーキテクチャにまたがる20のSSLモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T05:45:55Z) - Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment [94.0709779805955]
DeSTA2.5-Audio, a general-purpose Large Audio Language Model (LALM)について紹介する。
タスク固有の音声命令チューニングを必要とせず、頑健な聴覚知覚と指示追従のために設計されている。
DeSTA2.5-Audioは、幅広いオーディオ言語ベンチマークで最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-03T16:28:25Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement [36.136070412464214]
音声強調(SE)は、雑音の多い環境下での音声の品質と可聴性を改善することを目的としている。
近年の研究では、音声信号処理に視覚的手がかりを取り入れることで、SE性能が向上することが示されている。
本稿では,音声,視覚,言語情報を統合した拡散モデルを利用した多モード学習フレームワークDLAV-SEを提案する。
論文 参考訳(メタデータ) (2025-01-23T04:36:29Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。