論文の概要: DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation
- arxiv url: http://arxiv.org/abs/2510.14949v1
- Date: Thu, 16 Oct 2025 17:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.991523
- Title: DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation
- Title(参考訳): DialectGen:マルチモーダル生成におけるダイアレクトロバストネスのベンチマークと改善
- Authors: Yu Zhou, Sohyun An, Haikang Deng, Da Yin, Clark Peng, Cho-Jui Hsieh, Kai-Wei Chang, Nanyun Peng,
- Abstract要約: 多モーダル生成モデルは方言テキスト入力を効果的に生成できるのか?
6つの共通英語方言にまたがる大規模ベンチマークを構築した。
マルチモーダル生成モデルのための一般的なエンコーダに基づく緩和戦略を設計する。
- 参考スコア(独自算出の注目度): 111.94720088481614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contact languages like English exhibit rich regional variations in the form of dialects, which are often used by dialect speakers interacting with generative models. However, can multimodal generative models effectively produce content given dialectal textual input? In this work, we study this question by constructing a new large-scale benchmark spanning six common English dialects. We work with dialect speakers to collect and verify over 4200 unique prompts and evaluate on 17 image and video generative models. Our automatic and human evaluation results show that current state-of-the-art multimodal generative models exhibit 32.26% to 48.17% performance degradation when a single dialect word is used in the prompt. Common mitigation methods such as fine-tuning and prompt rewriting can only improve dialect performance by small margins (< 7%), while potentially incurring significant performance degradation in Standard American English (SAE). To this end, we design a general encoder-based mitigation strategy for multimodal generative models. Our method teaches the model to recognize new dialect features while preserving SAE performance. Experiments on models such as Stable Diffusion 1.5 show that our method is able to simultaneously raise performance on five dialects to be on par with SAE (+34.4%), while incurring near zero cost to SAE performance.
- Abstract(参考訳): 英語のような接触言語は方言の形で豊富な地域変化を示しており、しばしば生成モデルと相互作用する方言話者によって使用される。
しかし、マルチモーダル生成モデルは方言のテキスト入力を効果的に生成できるのか?
本研究では,6つの共通英語方言にまたがる大規模ベンチマークを構築することにより,この問題を考察する。
我々は、方言話者と協力して、4200以上のユニークなプロンプトを収集し、検証し、17の画像およびビデオ生成モデルで評価する。
自動および人為的評価の結果から,現在最先端のマルチモーダル生成モデルでは,1つの方言単語がプロンプトで使用される場合,32.26%から48.17%のパフォーマンス劣化が見られた。
微調整や素早い書き直しのような一般的な緩和法は、方言のパフォーマンスを小さなマージン(7%)しか改善できないが、標準アメリカ英語(SAE)では大きな性能劣化を引き起こす可能性がある。
この目的のために,マルチモーダル生成モデルに対する一般的なエンコーダに基づく緩和戦略を設計する。
本手法は,SAE性能を保ちながら,新しい方言の特徴を認識することをモデルに教える。
安定拡散1.5のようなモデルを用いた実験により,SAEと同等となる5つの方言(+34.4%)の性能を同時に向上すると同時に,SAEの性能にほぼゼロのコストをかけた結果が得られた。
関連論文リスト
- Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe [29.70578165040035]
本稿では、言語基盤モデルを用いて、世界中の方言や地域言語をモデリングするための新しいベンチマークであるVoxlectを紹介する。
具体的には、英語、アラビア語、マンダリン、カントン語、チベット語、インド語、タイ語、スペイン語、フランス語、ドイツ語、ブラジルポルトガル語、イタリア語の方言および地域言語品種に関する総合的なベンチマーク評価を報告する。
論文 参考訳(メタデータ) (2025-08-03T09:51:28Z) - To Distill or Not to Distill? On the Robustness of Robust Knowledge Distillation [16.655022975392992]
現在の多言語ASRモデルは計算集約的であり、適切な総合的な評価を欠いている。
我々は、大きな教師モデルからより効率的なより小さな学生の変種に知識を蒸留する。
最もよく蒸留されたモデル全体の性能(45.0$% WER)は、SoTAモデルの2倍の大きさである。
論文 参考訳(メタデータ) (2024-06-06T21:11:53Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - Quantifying Language Variation Acoustically with Few Resources [4.162663632560141]
ディープ・アコースティック・モデルは低リソース言語に転送する言語情報を学んだかもしれない。
4つの言語(地域)から100以上の方言に対して平均10語以上の発音差を計算する。
その結果,音響モデルは音素の書き起こしを必要とせずに(従来の)書き起こし方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-05T15:00:56Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。