論文の概要: Multilingual Conceptual Coverage in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2306.01735v1
- Date: Fri, 2 Jun 2023 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 13:45:05.881856
- Title: Multilingual Conceptual Coverage in Text-to-Image Models
- Title(参考訳): テキスト・画像モデルにおける多言語概念被覆
- Authors: Michael Saxon, William Yang Wang
- Abstract要約: コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
- 参考スコア(独自算出の注目度): 98.80343331645626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose "Conceptual Coverage Across Languages" (CoCo-CroLa), a technique
for benchmarking the degree to which any generative text-to-image system
provides multilingual parity to its training language in terms of tangible
nouns. For each model we can assess "conceptual coverage" of a given target
language relative to a source language by comparing the population of images
generated for a series of tangible nouns in the source language to the
population of images generated for each noun under translation in the target
language. This technique allows us to estimate how well-suited a model is to a
target language as well as identify model-specific weaknesses, spurious
correlations, and biases without a-priori assumptions. We demonstrate how it
can be used to benchmark T2I models in terms of multilinguality, and how
despite its simplicity it is a good proxy for impressive generalization.
- Abstract(参考訳): 提案する"Conceptual Coverage Across Languages"(CoCo-CroLa)は,任意の生成的テキスト・画像システムが,有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
この手法により、モデルがターゲット言語にどの程度適合しているかを推定し、a-prioriの仮定なしで、モデル固有の弱点、スプリアス相関、バイアスを識別できます。
マルチリンガル性の観点からT2Iモデルをベンチマークする方法を実証し、その単純さにもかかわらず、印象的な一般化のための優れたプロキシであることを示す。
関連論文リスト
- Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations [53.89380284760555]
Babel-ImageNetは,100言語へのイメージネットラベルの部分的翻訳を提供する,多言語ベンチマークである。
我々は,11の公開多言語CLIPモデルをベンチマークで評価し,イングリッシュイメージネットの性能と高ソース言語との差を顕著に示した。
パラメータ効率のよい言語特化学習を行う低リソース言語に対して,多言語CLIPの性能を劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T17:53:06Z) - Visually Grounded Reasoning across Languages and Cultures [27.31020761908739]
我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。
我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。
画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
論文 参考訳(メタデータ) (2021-09-28T16:51:38Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Contrastive Language-Image Pre-training for the Italian Language [4.804798944613199]
イタリア語(CLIP-Italian)における最初のCLIPモデルについて述べる。
その結果,CLIP-Italianは画像検索やゼロショット分類のタスクにおいて,多言語CLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T13:53:47Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。