論文の概要: CRAFT: Cultural Russian-Oriented Dataset Adaptation for Focused Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.04851v1
- Date: Wed, 07 May 2025 23:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.701062
- Title: CRAFT: Cultural Russian-Oriented Dataset Adaptation for Focused Text-to-Image Generation
- Title(参考訳): CRAFT: 集中型テキスト・画像生成のための文化ロシア指向データセット適応
- Authors: Viacheslav Vasilev, Vladimir Arkhipkin, Julia Agafonova, Tatiana Nikulina, Evelina Mironova, Alisa Shichanina, Nikolai Gerasimenko, Mikhail Shoytov, Denis Dimitrov,
- Abstract要約: 文化規範の概念を考察し,現代画像生成モデルによる理解の重要性を認識した。
本稿では,文化コードに基づくデータセット作成に必要なデータを収集・処理する手法を提案する。
人的評価の結果は、モデルにおけるロシア文化の認知度の増加を示す。
- 参考スコア(独自算出の注目度): 3.566419648777424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the fact that popular text-to-image generation models cope well with international and general cultural queries, they have a significant knowledge gap regarding individual cultures. This is due to the content of existing large training datasets collected on the Internet, which are predominantly based on Western European or American popular culture. Meanwhile, the lack of cultural adaptation of the model can lead to incorrect results, a decrease in the generation quality, and the spread of stereotypes and offensive content. In an effort to address this issue, we examine the concept of cultural code and recognize the critical importance of its understanding by modern image generation models, an issue that has not been sufficiently addressed in the research community to date. We propose the methodology for collecting and processing the data necessary to form a dataset based on the cultural code, in particular the Russian one. We explore how the collected data affects the quality of generations in the national domain and analyze the effectiveness of our approach using the Kandinsky 3.1 text-to-image model. Human evaluation results demonstrate an increase in the level of awareness of Russian culture in the model.
- Abstract(参考訳): 人気テキスト・画像生成モデルは、国際的および一般的な文化的なクエリにうまく対応しているにもかかわらず、個々の文化に関して大きな知識ギャップがある。
これは、インターネット上で収集された既存の大規模なトレーニングデータセットの内容によるもので、主に西ヨーロッパやアメリカの大衆文化に基づいている。
一方、モデルの文化的適応の欠如は、誤った結果、生成品質の低下、ステレオタイプや攻撃的コンテンツの拡散につながる可能性がある。
この問題に対処するために,現代画像生成モデルによる理解の重要さを認識し,文化規範の概念を考察する。
本稿では,文化規範,特にロシア語に基づくデータセット作成に必要なデータ収集・処理手法を提案する。
収集したデータは,国家領域における世代ごとの質にどのように影響するかを考察し,カンディンスキー3.1テキスト・ツー・イメージ・モデルを用いて,我々のアプローチの有効性を分析した。
人的評価の結果は、モデルにおけるロシア文化の認知度の増加を示す。
関連論文リスト
- Diffusion Models Through a Global Lens: Are They Culturally Inclusive? [15.991121392458748]
我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。
これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。
我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
論文 参考訳(メタデータ) (2025-02-13T03:05:42Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Risks of Cultural Erasure in Large Language Models [4.613949381428196]
我々は,歴史的権力不平等を疑問視し,考慮する言語技術の量化可能な評価の必要性を論じる。
我々は、言語モデルがこれらの文脈を記述するよう依頼されたとき、世界中の様々な場所で生成する表現を探索する。
言語モデルアプリケーションを用いて,旅行レコメンデーションに表される文化を分析した。
論文 参考訳(メタデータ) (2025-01-02T04:57:50Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。