論文の概要: Your Multimodal Speech Model Says I Have a Face for Radio
- arxiv url: http://arxiv.org/abs/2605.30472v1
- Date: Thu, 28 May 2026 18:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.181834
- Title: Your Multimodal Speech Model Says I Have a Face for Radio
- Title(参考訳): マルチモーダルな音声モデル:僕にはラジオの顔がある
- Authors: Maya K. Nachesa, Vlad Niculae, Vagrant Gautam,
- Abstract要約: 本稿では,マルチモーダル音声認識のバイアス評価について述べる。
mWhisper-FlamingoモデルとGeminiモデルの間に大きな品質差があり、最大4.05ワードエラー率ポイントが低下する。
私たちの発見は、開発者がそのような制限を評価し、修正し、コミュニケーションすることの優先事項であることを示している。
- 参考スコア(独自算出の注目度): 10.918147393269352
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large neural models have become better at language tasks, researchers are increasingly building multi- and omnimodal models that handle more modalities of data. One example is the expansion of speech recognition models to audio-visual data for noise mitigation and multimodal subtitling. While performance and bias have been studied extensively in the single-modality regime, it is unknown how new modalities affect this, even though they produce biases in humans. We therefore propose the first bias evaluation of multimodal speech recognition, where we create videos pairing different faces with the same audio, and measure changes in speech transcription accuracy. We find large quality-of-service differences across mWhisper-Flamingo and Gemini models, with drops of up to 4.05 word error rate points, across self-declared gender, ethnicity, and their intersection. Our findings point to a priority for developers to evaluate, fix, and communicate such limitations, as providing more signals through additional modalities is not necessarily better, and may even lead to biased outcomes.
- Abstract(参考訳): 言語タスクにおける大きなニューラルモデルの性能が向上するにつれて、研究者はデータのよりモダリティを扱うマルチモーダルモデルとオムニモーダルモデルを構築している。
1つの例は、雑音軽減とマルチモーダルサブティットのための音声認識モデルから音声視覚データへの拡張である。
単一モダリティの体制では、パフォーマンスとバイアスが広く研究されているが、新しいモダリティが人間に偏見をもたらすとしても、どのように影響するかは分かっていない。
そこで我々は,マルチモーダル音声認識の最初のバイアス評価を提案し,異なる顔と同一の音声をペアリングするビデオを作成し,音声の書き起こし精度の変化を計測する。
我々は、mWhisper-FlamingoモデルとGeminiモデルの間で、自己宣言された性別、民族、およびそれらの交差点間で、最大4.05ワードエラー率ポイントの低下による、サービス品質の大きな違いを見出した。
私たちの発見は、開発者がこのような制限を評価し、修正し、コミュニケーションすることの優先順位を示している。
関連論文リスト
- TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis [74.31705485094096]
7729のユニークなスピーカーから1244時間のビデオを含む、大規模で高品質で多様なデータセットであるTalkVidを紹介した。
TalkVidは、動作の安定性、美的品質、顔のディテールを厳格にフィルタする、原則付き多段階自動パイプラインを通じてキュレートされる。
TalkVid-Benchは、500クリップの階層化された評価セットで、重要な人口統計学と言語学の軸間で慎重にバランスを取ります。
論文 参考訳(メタデータ) (2025-08-19T08:31:15Z) - Enhancing Lie Detection Accuracy: A Comparative Study of Classic ML, CNN, and GCN Models using Audio-Visual Features [0.0]
ポリグラフ検査の不正確さは、しばしば誤った信念、誤った情報、偏見につながる。
騙しを検出する方法として、顔の微小表現を解析する手法が登場した。
CNN Conv1Dマルチモーダルモデルは平均95.4%の精度を達成した。
論文 参考訳(メタデータ) (2024-10-26T22:17:36Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy? [12.662031101992968]
合成および実世界の両方のデータセットにおける認識精度に対する多重モーダル性の影響について検討する。
音声認識のための補足的モダリティとしてのイメージは、中等度雑音レベルにおいて最大の利益をもたらす。
最も関連性の高い視覚情報が前処理ステップとしてフィルタリングされる場合、合成データセットと実世界のデータセットの両方のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-09-13T22:18:45Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Are words equally surprising in audio and audio-visual comprehension? [13.914373331208774]
同一音声刺激の音声のみおよび音声視覚提示において,各単語に関連付けられたERPシグネチャ(N400)を比較した。
以上の結果から,認知活動はマルチモーダル・アンモダル・セッティングと大きく異なることが示唆された。
これは、マルチモーダル環境における認知処理における局所語彙コンテキストの影響を顕著に示すものである。
論文 参考訳(メタデータ) (2023-07-14T11:17:37Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。