Fugu-MT 論文翻訳(概要): Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction

論文の概要: Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction

arxiv url: http://arxiv.org/abs/2506.09792v1
Date: Wed, 11 Jun 2025 14:36:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:03.055259
Title: Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction
Title（参考訳）: 音声目標音声抽出のための外部知識源からの言語制約の導入
Authors: Wenxuan Wu, Shuai Wang, Xixin Wu, Helen Meng, Haizhou Li,
Abstract要約: AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
参考スコア（独自算出の注目度）: 87.49303116989708
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-visual target speaker extraction (AV-TSE) models primarily rely on target visual cues to isolate the target speaker's voice from others. We know that humans leverage linguistic knowledge, such as syntax and semantics, to support speech perception. Inspired by this, we explore the potential of pre-trained speech-language models (PSLMs) and pre-trained language models (PLMs) as auxiliary knowledge sources for AV-TSE. In this study, we propose incorporating the linguistic constraints from PSLMs or PLMs for the AV-TSE model as additional supervision signals. Without introducing any extra computational cost during inference, the proposed approach consistently improves speech quality and intelligibility. Furthermore, we evaluate our method in multi-language settings and visual cue-impaired scenarios and show robust performance gains.
Abstract（参考訳）: 音声-視覚的ターゲット話者抽出(AV-TSE)モデルは、ターゲット話者の声を他者から分離するために主にターゲット視覚的手がかりに依存する。人間は、構文や意味論などの言語知識を活用して、音声認識を支援することがわかっている。そこで我々は,AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を探る。本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。推論中に余分な計算コストを導入することなく、提案手法は音声品質と知能性を一貫して改善する。さらに,提案手法を多言語設定と視覚的キュー不自由なシナリオで評価し,頑健な性能向上を示す。

関連論文リスト

ELEGANCE: Efficient LLM Guidance for Audio-Visual Target Speech Extraction [88.41471266579333]
本稿では,大規模言語モデル(LLM)からの言語知識をAV-TSEモデルに組み込む新しいフレームワークであるELEGANCEを提案する。 2つのAV-TSEバックボーン上でのRoBERTa、Qwen3-0.6B、Qwen3-4Bによる総合的な実験は大幅に改善された。
論文参考訳（メタデータ） (2025-11-09T08:50:11Z)
Probing the Hidden Talent of ASR Foundation Models for L2 English Oral Assessment [17.656808708384435]
本稿では,ASR基盤モデルであるWhisperの未完成の可能性を探る。隠れ表現から音響的特徴と言語的特徴を抽出し,その潜在能力を更に探究する。我々はWhisperの埋め込みの詳細な分析を行い、タスク固有の微調整がなくても、本モデルが本質的に音声の順序的習熟パターンと意味的側面の両方を符号化することを示した。
論文参考訳（メタデータ） (2025-10-18T08:10:24Z)
Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。 i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文参考訳（メタデータ） (2025-08-28T06:51:42Z)
Thinking in Directivity: Speech Large Language Model for Multi-Talker Directional Speech Recognition [34.08564665311891]
指向性SpeechLlamaは、指向性音声認識を実現するために、スマートグラスのマイクロホンアレイを活用する新しいアプローチである。実験結果から,提案した指向性SpeechLlamaはテキストキューと空間音声の関係を効果的に捉えることができることがわかった。
論文参考訳（メタデータ） (2025-06-17T20:49:41Z)
Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement [36.136070412464214]
音声強調(SE)は、雑音の多い環境下での音声の品質と可聴性を改善することを目的としている。近年の研究では、音声信号処理に視覚的手がかりを取り入れることで、SE性能が向上することが示されている。本稿では,音声,視覚,言語情報を統合した拡散モデルを利用した多モード学習フレームワークDLAV-SEを提案する。
論文参考訳（メタデータ） (2025-01-23T04:36:29Z)
Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。視覚音声単位を用いた新しい学習手法を提案する。我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文参考訳（メタデータ） (2024-01-18T08:46:02Z)
Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。 2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。 3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-03-28T22:45:40Z)
SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文参考訳（メタデータ） (2023-02-03T01:36:38Z)
Supervised Acoustic Embeddings And Their Transferability Across Languages [2.28438857884398]
音声認識においては、話者変動や雑音など無関係な要因を排除しつつ、入力信号の音声内容のモデル化が不可欠である。自己教師付き事前学習は、教師付き音声認識と教師なし音声認識の両方を改善する方法として提案されている。
論文参考訳（メタデータ） (2023-01-03T09:37:24Z)
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文参考訳（メタデータ） (2022-11-21T09:10:10Z)
Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文参考訳（メタデータ） (2021-10-18T21:21:23Z)
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文参考訳（メタデータ） (2021-06-18T13:50:38Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。