論文の概要: SPES: Spectrogram Perturbation for Explainable Speech-to-Text Generation
- arxiv url: http://arxiv.org/abs/2411.01710v1
- Date: Sun, 03 Nov 2024 23:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:46:30.585258
- Title: SPES: Spectrogram Perturbation for Explainable Speech-to-Text Generation
- Title(参考訳): SPES:説明可能な音声テキスト生成のためのスペクトログラム摂動
- Authors: Dennis Fucci, Marco Gaido, Beatrice Savoldi, Matteo Negri, Mauro Cettolo, Luisa Bentivogli,
- Abstract要約: 説明可能な音声・テキスト生成のためのスペクトログラム摂動法(SPES)を提案する。
SPESは、入力スペクトログラムと以前に生成されたトークンの両方に基づいて、予測されたトークンについて説明を提供する。
音声認識と翻訳に関する広範囲な評価は、SPESが人間に忠実で妥当な説明を生成することを示す。
- 参考スコア(独自算出の注目度): 19.833055725825883
- License:
- Abstract: Spurred by the demand for interpretable models, research on eXplainable AI for language technologies has experienced significant growth, with feature attribution methods emerging as a cornerstone of this progress. While prior work in NLP explored such methods for classification tasks and textual applications, explainability intersecting generation and speech is lagging, with existing techniques failing to account for the autoregressive nature of state-of-the-art models and to provide fine-grained, phonetically meaningful explanations. We address this gap by introducing Spectrogram Perturbation for Explainable Speech-to-text Generation (SPES), a feature attribution technique applicable to sequence generation tasks with autoregressive models. SPES provides explanations for each predicted token based on both the input spectrogram and the previously generated tokens. Extensive evaluation on speech recognition and translation demonstrates that SPES generates explanations that are faithful and plausible to humans.
- Abstract(参考訳): 解釈可能なモデルの需要により、言語技術のためのeXplainable AIの研究は、この進歩の基盤として機能帰属メソッドが出現し、大きな成長を遂げた。
NLPにおける以前の研究は、分類タスクやテキスト応用の手法を探求する一方で、既存の手法では、最先端モデルの自己回帰性を考慮せず、きめ細かな、音声学的に意味のある説明を提供するために、生成と音声の相互交叉が遅れている。
自動回帰モデルを用いたシーケンス生成タスクに適用可能な特徴帰属技術であるSPES(Spectrogram Perturbation for Explainable Speech-to-text Generation)を導入することで、このギャップに対処する。
SPESは、入力スペクトログラムと以前に生成されたトークンの両方に基づいて、予測されたトークンについて説明を提供する。
音声認識と翻訳に関する広範囲な評価は、SPESが人間に忠実で妥当な説明を生成することを示す。
関連論文リスト
- TAGExplainer: Narrating Graph Explanations for Text-Attributed Graph Learning Models [14.367754016281934]
本稿では,TAG学習のための自然言語記述法であるTAGExplainerを提案する。
実世界のシナリオにおける注釈付き真実説明の欠如に対処するため,まず,サリエンシに基づく説明からモデルの判断を捉える擬似ラベルを生成することを提案する。
高品質な擬似ラベルを使用して、エンド・ツー・エンドの説明生成モデルを訓練する。
論文 参考訳(メタデータ) (2024-10-20T03:55:46Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Challenges and Opportunities in Text Generation Explainability [12.089513278445704]
本稿では,説明可能性手法の開発と評価において生じる3つのグループに分類される17の課題について概説する。
これらの課題には、トークン化、説明の類似性の定義、トークンの重要性の決定と予測変更メトリクス、人間の介入のレベル、適切なテストデータセットの作成などが含まれる。
この論文は、これらの課題がコミュニティにとっての新たな機会として、どのように絡み合うことができるかを説明している。
論文 参考訳(メタデータ) (2024-05-14T09:44:52Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Explaining Hate Speech Classification with Model Agnostic Methods [0.9990687944474738]
本研究の目的は、ヘイトスピーチ予測と、その決定を支援するためにシステムによって生成された説明とのギャップを埋めることである。
これは、まずテキストの分類を予測し、その後、ポストホック、モデル非依存、代理的解釈可能性アプローチを提供することによって達成されている。
論文 参考訳(メタデータ) (2023-05-30T19:52:56Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Lexically-constrained Text Generation through Commonsense Knowledge
Extraction and Injection [62.071938098215085]
我々は、ある入力概念のセットに対して妥当な文を生成することを目的としているcommongenベンチマークに焦点を当てる。
生成したテキストの意味的正しさを高めるための戦略を提案する。
論文 参考訳(メタデータ) (2020-12-19T23:23:40Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。