論文の概要: SoS: Analysis of Surface over Semantics in Multilingual Text-To-Image Generation
- arxiv url: http://arxiv.org/abs/2601.16803v1
- Date: Fri, 23 Jan 2026 14:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.729805
- Title: SoS: Analysis of Surface over Semantics in Multilingual Text-To-Image Generation
- Title(参考訳): SoS:多言語テキスト・画像生成におけるセマンティックス表面の解析
- Authors: Carolin Holtermann, Florian Schneider, Anne Lauscher,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルにおいて,表面上セマンティックス(SoS)について検討する。
1つのモデルを除く全てのモデルが、少なくとも2つの言語で強い表面レベルの傾向を示すことを示す。
- 参考スコア(独自算出の注目度): 30.79761388638038
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Text-to-image (T2I) models are increasingly employed by users worldwide. However, prior research has pointed to the high sensitivity of T2I towards particular input languages - when faced with languages other than English (i.e., different surface forms of the same prompt), T2I models often produce culturally stereotypical depictions, prioritizing the surface over the prompt's semantics. Yet a comprehensive analysis of this behavior, which we dub Surface-over-Semantics (SoS), is missing. We present the first analysis of T2I models' SoS tendencies. To this end, we create a set of prompts covering 171 cultural identities, translated into 14 languages, and use it to prompt seven T2I models. To quantify SoS tendencies across models, languages, and cultures, we introduce a novel measure and analyze how the tendencies we identify manifest visually. We show that all but one model exhibit strong surface-level tendency in at least two languages, with this effect intensifying across the layers of T2I text encoders. Moreover, these surface tendencies frequently correlate with stereotypical visual depictions.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルが世界中で採用されている。
しかしながら、以前の研究では、T2Iの特定の入力言語に対する高い感度が指摘されており、英語以外の言語(つまり同じプロンプトの異なる表面形式)に直面すると、T2Iモデルはしばしば文化的にステレオタイプ的な描写を生成し、プロンプトのセマンティクスよりも表面を優先する。
しかし、Surface-over-Semantics (SoS) をダブしたこの挙動の包括的な分析は欠落している。
本稿では,T2IモデルのSoS傾向を初めて解析する。
この目的のために、171の文化的アイデンティティをカバーするプロンプトを作成し、14の言語に翻訳し、7つのT2Iモデルをプロンプトする。
モデル,言語,文化間でのSoS傾向を定量化するために,我々は新しい尺度を導入し,その傾向を視覚的に認識する方法について分析する。
1つのモデルを除く全てのモデルが、少なくとも2つの言語で強い表面レベルの傾向を示し、この効果はT2Iテキストエンコーダの層をまたいで強まる。
さらに、これらの表面傾向は、しばしばステレオタイプの視覚的描写と相関する。
関連論文リスト
- Evaluating the Generation of Spatial Relations in Text and Image Generative Models [4.281091463408283]
空間関係は自然に空間的に理解される。
我々は、LLM出力を画像に変換するアプローチを開発し、T2IモデルとLLMの両方を評価する。
驚くべきことに、T2Iモデルは印象的な画像生成能力にもかかわらず、サブパー性能しか達成できないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T09:30:02Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Exploring Anisotropy and Outliers in Multilingual Language Models for
Cross-Lingual Semantic Sentence Similarity [64.18762301574954]
これまでの研究によると、文脈言語モデルによって出力される表現は静的な型埋め込みよりも異方性が高い。
これは単言語モデルと多言語モデルの両方に当てはまるように思われるが、多言語コンテキストでの作業はあまり行われていない。
複数の事前訓練された多言語言語モデルにおける外乱次元とその異方性との関係について検討する。
論文 参考訳(メタデータ) (2023-06-01T09:01:48Z) - Language Model Behavior: A Comprehensive Survey [5.663056267168211]
本稿では,タスク固有の微調整前における英語モデル行動に関する最近の250以上の研究について論じる。
モデルが数十億のパラメータにスケールするにつれて、生成テキストの品質は劇的に向上するが、モデルはまだ、非現実的な応答、常識的エラー、暗記されたテキスト、社会的偏見の傾向にある。
論文 参考訳(メタデータ) (2023-03-20T23:54:26Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。