論文の概要: RusCode: Russian Cultural Code Benchmark for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2502.07455v1
- Date: Tue, 11 Feb 2025 10:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:50.398713
- Title: RusCode: Russian Cultural Code Benchmark for Text-to-Image Generation
- Title(参考訳): RusCode: テキストから画像生成のためのロシアの文化コードベンチマーク
- Authors: Viacheslav Vasilev, Julia Agafonova, Nikolai Gerasimenko, Alexander Kapitanov, Polina Mikhailova, Evelina Mironova, Denis Dimitrov,
- Abstract要約: 本稿では,ロシア文化コードの要素を含むテキスト・画像生成の品質を評価するためのRusCodeベンチマークを提案する。
最後のデータセットは、ロシア語で1250のテキストプロンプトと、英語への翻訳で構成されています。
本稿では、一般的な生成モデルを用いて、ロシアの視覚概念表現を並べて比較した人間の評価結果を示す。
- 参考スコア(独自算出の注目度): 37.970098758333044
- License:
- Abstract: Text-to-image generation models have gained popularity among users around the world. However, many of these models exhibit a strong bias toward English-speaking cultures, ignoring or misrepresenting the unique characteristics of other language groups, countries, and nationalities. The lack of cultural awareness can reduce the generation quality and lead to undesirable consequences such as unintentional insult, and the spread of prejudice. In contrast to the field of natural language processing, cultural awareness in computer vision has not been explored as extensively. In this paper, we strive to reduce this gap. We propose a RusCode benchmark for evaluating the quality of text-to-image generation containing elements of the Russian cultural code. To do this, we form a list of 19 categories that best represent the features of Russian visual culture. Our final dataset consists of 1250 text prompts in Russian and their translations into English. The prompts cover a wide range of topics, including complex concepts from art, popular culture, folk traditions, famous people's names, natural objects, scientific achievements, etc. We present the results of a human evaluation of the side-by-side comparison of Russian visual concepts representations using popular generative models.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーション・モデルは世界中のユーザーの間で人気を集めている。
しかし、これらのモデルの多くは英語の文化に対して強い偏見を示しており、他の言語グループ、国、国籍の固有の特徴を無視したり、誤解させたりしている。
文化意識の欠如は、世代品質を低下させ、意図しない侮辱や偏見の拡散といった望ましくない結果をもたらす可能性がある。
自然言語処理の分野とは対照的に、コンピュータビジョンにおける文化的意識は広く研究されていない。
本稿では,このギャップを減らそうとしている。
本稿では,ロシア文化コードの要素を含むテキスト・画像生成の品質を評価するためのRusCodeベンチマークを提案する。
そのために、ロシアの視覚文化の特徴を最もよく表す19のカテゴリのリストを作成します。
最後のデータセットは、ロシア語で1250のテキストプロンプトと、英語への翻訳で構成されています。
プロンプトは、芸術、大衆文化、民俗伝統、著名人の名前、自然物、科学的な業績など、多岐にわたる。
本稿では、一般的な生成モデルを用いて、ロシアの視覚概念表現を並べて比較した人間の評価結果を示す。
関連論文リスト
- Diffusion Models Through a Global Lens: Are They Culturally Inclusive? [15.991121392458748]
我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。
これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。
我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
論文 参考訳(メタデータ) (2025-02-13T03:05:42Z) - See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - CIC: A Framework for Culturally-Aware Image Captioning [2.565964707090901]
本稿では,文化を表すイメージの視覚的要素から抽出された文化要素をキャプションとして表現し,表現する新しい枠組みであるCICを提案する。
視覚的モダリティとLarge Language Models(LLM)を組み合わせた手法に着想を得て,画像から文化カテゴリーに基づく質問を生成する。
4つの異なる文化集団から45人の被験者を対象に行った人的評価から,提案する枠組みがより文化的に記述的なキャプションを生成することが示唆された。
論文 参考訳(メタデータ) (2024-02-08T03:12:25Z) - How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。
予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文 参考訳(メタデータ) (2022-10-27T07:32:39Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Visually Grounded Reasoning across Languages and Cultures [27.31020761908739]
我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。
我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。
画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
論文 参考訳(メタデータ) (2021-09-28T16:51:38Z) - Deception detection in text and its relation to the cultural dimension
of individualism/collectivism [6.17866386107486]
本研究は,文化における特定の言語的特徴の活用の相違が,個性主義/選択主義の分断に関して,規範に起因しているかどうかを考察する。
我々は、音韻学、形態学、構文に基づく幅広いn-gram特徴を実験することにより、カルチャー/言語対応分類器を作成する。
我々は6カ国(米国、ベルギー、インド、ロシア、メキシコ、ルーマニア)の5言語(英語、オランダ、ロシア、スペイン、ルーマニア)から11のデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-05-26T13:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。