論文の概要: Text to Image Generation: Leaving no Language Behind
- arxiv url: http://arxiv.org/abs/2208.09333v1
- Date: Fri, 19 Aug 2022 13:24:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 16:37:50.481664
- Title: Text to Image Generation: Leaving no Language Behind
- Title(参考訳): テキストから画像生成:背後に言語は残らない
- Authors: Pedro Reviriego and Elena Merino-G\'omez
- Abstract要約: 本稿では,3つの人気テキスト・画像生成装置の性能が言語にどのように依存するかを検討する。
その結果,英語以外の言語を使用する場合,性能が著しく低下することが示唆された。
これは、この新技術が母国語以外の英語話者によって利用できることを保証するための基本である。
- 参考スコア(独自算出の注目度): 6.243995448840211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the latest applications of Artificial Intelligence (AI) is to generate
images from natural language descriptions. These generators are now becoming
available and achieve impressive results that have been used for example in the
front cover of magazines. As the input to the generators is in the form of a
natural language text, a question that arises immediately is how these models
behave when the input is written in different languages. In this paper we
perform an initial exploration of how the performance of three popular
text-to-image generators depends on the language. The results show that there
is a significant performance degradation when using languages other than
English, especially for languages that are not widely used. This observation
leads us to discuss different alternatives on how text-to-image generators can
be improved so that performance is consistent across different languages. This
is fundamental to ensure that this new technology can be used by non-native
English speakers and to preserve linguistic diversity.
- Abstract(参考訳): 人工知能(AI)の最新の応用の1つは、自然言語の記述から画像を生成することである。
これらのジェネレータは現在利用可能になり、例えば雑誌の表紙に使われている印象的な結果が得られている。
ジェネレータへの入力は自然言語テキストの形式であるので、即座に生じる疑問は、入力が異なる言語で書かれたときにこれらのモデルがどのように振る舞うかである。
本稿では,3つの人気テキスト・イメージ・ジェネレータの性能が言語にどのように依存するかを最初に検討する。
その結果,英語以外の言語,特に広く使われていない言語では,性能が著しく低下していることがわかった。
この観察結果から,テキストと画像のジェネレータをどのように改良して,異なる言語間で性能が一貫したものになるかを議論する。
これは、この新技術が非ネイティブの英語話者によって使用され、言語多様性を維持するために基本である。
関連論文リスト
- Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Indonesian Text-to-Image Synthesis with Sentence-BERT and FastGAN [0.0]
我々はSentence BERTをテキストエンコーダとして、FastGANをイメージジェネレータとして使用します。
CUBデータセットをGoogle翻訳と人手による手作業でバハサに翻訳する。
FastGANは多くのスキップ励起モジュールとオートエンコーダを使用して解像度512x512x3のイメージを生成する。
論文 参考訳(メタデータ) (2023-03-25T16:54:22Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Generalising Multilingual Concept-to-Text NLG with Language Agnostic
Delexicalisation [0.40611352512781856]
概念からテキストへの自然言語生成は、自然言語で入力の意味を表現するタスクである。
多言語事前学習型埋め込みを用いた新しいデレクサライズ手法であるLanguage Agnostic Delexicalizationを提案する。
5つのデータセットと5つの言語で実験した結果、多言語モデルは概念対テキストで単言語モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-05-07T17:48:53Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。