論文の概要: Different Speech Translation Models Encode and Translate Speaker Gender Differently
- arxiv url: http://arxiv.org/abs/2506.02172v1
- Date: Mon, 02 Jun 2025 18:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.984356
- Title: Different Speech Translation Models Encode and Translate Speaker Gender Differently
- Title(参考訳): 話者ジェンダーを符号化・翻訳する異なる音声翻訳モデル
- Authors: Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli, Andre Martins, Giuseppe Attanasio,
- Abstract要約: 多様な音声翻訳モデル間で性別のエンコーディングを評価するために,探索手法を用いる。
その結果,従来のエンコーダ・デコーダモデルではジェンダー情報をキャプチャするが,新しいアーキテクチャでは音声エンコーダをアダプタを介して機械翻訳システムに統合する。
- 参考スコア(独自算出の注目度): 21.925623428254543
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent studies on interpreting the hidden states of speech models have shown their ability to capture speaker-specific features, including gender. Does this finding also hold for speech translation (ST) models? If so, what are the implications for the speaker's gender assignment in translation? We address these questions from an interpretability perspective, using probing methods to assess gender encoding across diverse ST models. Results on three language directions (English-French/Italian/Spanish) indicate that while traditional encoder-decoder models capture gender information, newer architectures -- integrating a speech encoder with a machine translation system via adapters -- do not. We also demonstrate that low gender encoding capabilities result in systems' tendency toward a masculine default, a translation bias that is more pronounced in newer architectures.
- Abstract(参考訳): 音声モデルの隠れ状態の解釈に関する最近の研究は、性別を含む話者特有の特徴を捉える能力を示している。
この発見は、音声翻訳(ST)モデルにも当てはまるだろうか?
もしそうなら、翻訳における話者のジェンダーの割り当てにはどんな意味があるのだろうか?
本稿では,様々なSTモデルにまたがるジェンダーエンコーディングを評価するための探索手法を用いて,解釈可能性の観点からこれらの疑問に対処する。
3つの言語方向(英語/フランス語/イタリア語/スペイン語)の結果は、従来のエンコーダ/デコーダモデルがジェンダー情報をキャプチャする一方で、新しいアーキテクチャ -- 音声エンコーダと、アダプタを介して機械翻訳システムを統合する -- はそうではないことを示している。
また, 性別の少ない符号化能力は, より新しいアーキテクチャにおいてより顕著な翻訳バイアスである男性デフォルトに対するシステムの傾向を示す。
関連論文リスト
- Addressing speaker gender bias in large scale speech translation systems [20.698663542717544]
本研究では,音声翻訳(ST)システムにおける話者性バイアスの問題に対処する。
我々は、話者の性別に基づいて翻訳をコスト効率よく修正するために、Large Language Models (LLMs) を用いている。
女性話者の翻訳能力は, ベースラインや大規模STシステムと比較して70%向上した。
論文 参考訳(メタデータ) (2025-01-10T14:20:46Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Twists, Humps, and Pebbles: Multilingual Speech Recognition Models Exhibit Gender Performance Gaps [25.95711246919163]
現在の自動音声認識(ASR)モデルは、多くの言語やタスクでかなりの変更を加えることなく使用できるように設計されている。
本研究では,3つのデータセット上で広く使用されている2つの多言語ASRモデルの性能を体系的に評価する。
以上の結果から,言語やモデルによって異なる傾向がみられた。
論文 参考訳(メタデータ) (2024-02-28T00:24:29Z) - How To Build Competitive Multi-gender Speech Translation Models For
Controlling Speaker Gender Translation [21.125217707038356]
発音性言語から文法性言語に翻訳する場合、生成された翻訳は、話者を参照する者を含む様々な単語に対して、明確なジェンダー代入を必要とする。
このような偏見や包括的行動を避けるために、話者の性別に関する外部から提供されたメタデータによって、話者関連表現の性別割当を導出すべきである。
本稿では、話者のジェンダーメタデータを単一の「マルチジェンダー」ニューラルSTモデルに統合し、維持しやすくすることで、同じ結果を達成することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T17:21:32Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Breeding Gender-aware Direct Speech Translation Systems [14.955696163410254]
性別認識型stソリューションは強い-しかし性別認識型stモデルを大きく上回る可能性がある。
ジェンダーマーク付き単語の翻訳は、全体的な翻訳品質を維持しながら、精度が最大30ポイント向上する。
論文 参考訳(メタデータ) (2020-12-09T10:18:03Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Gender in Danger? Evaluating Speech Translation Technology on the
MuST-SHE Corpus [20.766890957411132]
英語のような生産的な文法的なジェンダーのない言語からジェンダーマーク付き言語に翻訳することは、機械にとってよく知られた困難である。
ジェンダーバイアスを減らすために、オーディオは追加情報を提供できるか?
本稿では、音声翻訳における性差に関する最初の徹底的な調査を行い、将来の研究に役立つベンチマークのリリースに寄与する。
論文 参考訳(メタデータ) (2020-06-10T09:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。