論文の概要: Lost in Translation? Translation Errors and Challenges for Fair Assessment of Text-to-Image Models on Multilingual Concepts
- arxiv url: http://arxiv.org/abs/2403.11092v1
- Date: Sun, 17 Mar 2024 05:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:35:30.849179
- Title: Lost in Translation? Translation Errors and Challenges for Fair Assessment of Text-to-Image Models on Multilingual Concepts
- Title(参考訳): 翻訳における損失 : 翻訳誤りと多言語概念に基づくテキスト・画像モデルの評価への挑戦
- Authors: Michael Saxon, Yiran Luo, Sharon Levy, Chitta Baral, Yezhou Yang, William Yang Wang,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルの多言語能力のベンチマークは、テスト言語で生成された画像と概念集合上の期待画像分布を比較した。
このようなベンチマークの一つである"Conceptual Coverage Across Languages" (CoCo-CroLa)は、7つの言語に翻訳された概念リストから画像を生成するように促すことで、T2Iモデルの具体的な名詞の在庫を評価する。
このベンチマークは、スペイン語、日本語、中国語の様々な重大度の翻訳誤りを含むことがわかった。
- 参考スコア(独自算出の注目度): 107.32683485639654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarks of the multilingual capabilities of text-to-image (T2I) models compare generated images prompted in a test language to an expected image distribution over a concept set. One such benchmark, "Conceptual Coverage Across Languages" (CoCo-CroLa), assesses the tangible noun inventory of T2I models by prompting them to generate pictures from a concept list translated to seven languages and comparing the output image populations. Unfortunately, we find that this benchmark contains translation errors of varying severity in Spanish, Japanese, and Chinese. We provide corrections for these errors and analyze how impactful they are on the utility and validity of CoCo-CroLa as a benchmark. We reassess multiple baseline T2I models with the revisions, compare the outputs elicited under the new translations to those conditioned on the old, and show that a correction's impactfulness on the image-domain benchmark results can be predicted in the text domain with similarity scores. Our findings will guide the future development of T2I multilinguality metrics by providing analytical tools for practical translation decisions.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルの多言語機能のベンチマークは、テスト言語で生成された画像と概念集合上の期待画像分布を比較した。
このようなベンチマークの一つである"Conceptual Coverage Across Languages" (CoCo-CroLa)は、7つの言語に翻訳された概念リストから画像を生成し、出力された画像群を比較することで、T2Iモデルの具体的な名詞の在庫を評価する。
残念ながら、このベンチマークにはスペイン語、日本語、中国語の様々な重大度の翻訳誤りが含まれている。
これらのエラーを補正し、ベンチマークとしてCoCo-CroLaの有用性と妥当性にどれほど影響があるか分析する。
我々は,複数のベースラインT2Iモデルをリビジョンで再評価し,新しい翻訳で得られた出力と古い条件付き出力とを比較し,画像領域のベンチマーク結果に対する補正効果を類似度スコア付きテキスト領域で予測可能であることを示す。
本研究は,T2I多言語性指標の今後の発展を導くために,実用的な翻訳決定のための分析ツールを提供することにより,その発展を導くものである。
関連論文リスト
- Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Translation Errors Significantly Impact Low-Resource Languages in
Cross-Lingual Learning [26.49647954587193]
本研究では,翻訳の不整合が存在し,XNLIの低リソース言語に不均等に影響を及ぼすことを示す。
このような矛盾を識別するために,人間翻訳テキストと機械翻訳ターゲットテキストにおけるゼロショット評価の差を計測する手法を提案する。
また,Hindi と Urdu という2つの言語に対して,人間が翻訳したテストインスタンスを手動で再注釈することで,翻訳エラーが存在することも確認した。
論文 参考訳(メタデータ) (2024-02-03T08:22:51Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - UVCGAN v2: An Improved Cycle-Consistent GAN for Unpaired Image-to-Image
Translation [10.689788782893096]
I2I (unpaired image-to-image) 翻訳技術は、完全に教師なしの方法で2つのデータ領域間のマッピングを求める。
DMはFrechet distance(FID)の観点からI2I翻訳ベンチマークの最先端を保っている
この研究は、最近のUVCGANモデルを改善し、モデルアーキテクチャとトレーニング手順の近代化に資する。
論文 参考訳(メタデータ) (2023-03-28T19:46:34Z) - Multimodal Neural Machine Translation with Search Engine Based Image
Retrieval [4.662583832063716]
バイリンガルパラレルコーパスのための記述画像収集のためのオープン語彙画像検索手法を提案する。
提案手法は,強いベースラインに対する大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-07-26T08:42:06Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Visually Grounded Reasoning across Languages and Cultures [27.31020761908739]
我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。
我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。
画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
論文 参考訳(メタデータ) (2021-09-28T16:51:38Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。