論文の概要: KAHANI: Culturally-Nuanced Visual Storytelling Pipeline for Non-Western Cultures
- arxiv url: http://arxiv.org/abs/2410.19419v2
- Date: Mon, 28 Oct 2024 08:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:23:11.981010
- Title: KAHANI: Culturally-Nuanced Visual Storytelling Pipeline for Non-Western Cultures
- Title(参考訳): 花谷:非西洋文化のための文化に根ざしたビジュアル・ストーリーテリング・パイプライン
- Authors: Hamna, Deepthi Sudharsan, Agrima Seth, Ritvik Budhiraja, Deepika Khullar, Vyshak Jain, Kalika Bali, Aditya Vashistha, Sameer Segal,
- Abstract要約: 我々は、西洋文化以外の文化に対して、文化的基盤を持つビジュアルストーリーを生成する「カハニ」と呼ばれるビジュアルストーリーテリングパイプラインを開発する。
思考の連鎖(CoT)とT2Iプロンプト技術を用いて、ユーザのプロンプトから文化的文脈を捉え、キャラクターやシーン構成の鮮明な記述を生成する。
- 参考スコア(独自算出の注目度): 13.316043476626907
- License:
- Abstract: Large Language Models (LLMs) and Text-To-Image (T2I) models have demonstrated the ability to generate compelling text and visual stories. However, their outputs are predominantly aligned with the sensibilities of the Global North, often resulting in an outsider's gaze on other cultures. As a result, non-Western communities have to put extra effort into generating culturally specific stories. To address this challenge, we developed a visual storytelling pipeline called KAHANI that generates culturally grounded visual stories for non-Western cultures. Our pipeline leverages off-the-shelf models GPT-4 Turbo and Stable Diffusion XL (SDXL). By using Chain of Thought (CoT) and T2I prompting techniques, we capture the cultural context from user's prompt and generate vivid descriptions of the characters and scene compositions. To evaluate the effectiveness of KAHANI, we conducted a comparative user study with ChatGPT-4 (with DALL-E3) in which participants from different regions of India compared the cultural relevance of stories generated by the two tools. Results from the qualitative and quantitative analysis performed on the user study showed that KAHANI was able to capture and incorporate more Culturally Specific Items (CSIs) compared to ChatGPT-4. In terms of both its cultural competence and visual story generation quality, our pipeline outperformed ChatGPT-4 in 27 out of the 36 comparisons.
- Abstract(参考訳): 大規模言語モデル(LLM)とテキスト・ツー・イメージ(T2I)モデルは、魅力的なテキストやビジュアルストーリーを生成する能力を示した。
しかし、そのアウトプットは主にグローバル・ノースの感度と一致しており、しばしば外部の人々が他の文化を見つめる結果となった。
その結果、西洋以外の地域社会は、文化的に特定の物語を生み出すために余分な努力を払わなければならない。
この課題に対処するため,欧米以外の文化に対して,文化的に根ざしたビジュアルストーリーを生成する,KAHANIというビジュアルストーリーテリングパイプラインを開発した。
我々のパイプラインは、既製のモデルGPT-4 TurboとStable Diffusion XL(SDXL)を活用している。
思考の連鎖(CoT)とT2Iプロンプト技術を用いて、ユーザのプロンプトから文化的文脈を捉え、キャラクターやシーン構成の鮮明な記述を生成する。
カハニの有効性を評価するため、インド各地の参加者を対象にChatGPT-4(DALL-E3)を用いて比較調査を行った。
その結果, HANIはChatGPT-4と比較して, より文化的に特異的な項目(CSI)を捕捉し, 組み込むことができた。
文化的な能力と視覚的なストーリー生成の質の両面で、パイプラインは36件中27件でChatGPT-4を上回りました。
関連論文リスト
- CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.82306181299153]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。
同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。
人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文 参考訳(メタデータ) (2024-10-03T17:04:31Z) - Are Generative Language Models Multicultural? A Study on Hausa Culture and Emotions using ChatGPT [4.798444680860121]
我々は,ChatGPTが生成した回答と,母国語話者が提供した回答とを,文化的に関連のある37の質問に対して比較した。
以上の結果から,ChatGPTは人間の反応とある程度の類似性を持っているが,ハウサ文化と感情に対する知識と認識のギャップやバイアスも示している。
論文 参考訳(メタデータ) (2024-06-27T19:42:13Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - CultureBank: An Online Community-Driven Knowledge Base Towards Culturally Aware Language Technologies [53.2331634010413]
CultureBankは、ユーザの自己物語に基づいて構築された知識ベースである。
TikTokから12K、Redditから1Kの文化的記述が含まれている。
今後の文化的に意識された言語技術に対する推奨事項を提示する。
論文 参考訳(メタデータ) (2024-04-23T17:16:08Z) - Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing [20.020624506393577]
我々は,MARVLベンチマークデータセットを用いてGPT-4Vを広範囲に探索し,その能力と視覚的理解の限界について検討した。
実験結果から,GPT-4Vは文化概念の同定に優れるが,低リソース言語では依然として性能が弱いことが示唆された。
論文 参考訳(メタデータ) (2024-02-08T19:25:40Z) - CIC: A framework for Culturally-aware Image Captioning [2.565964707090901]
本稿では,文化を表すイメージの視覚的要素から抽出された文化要素をキャプションとして表現し,表現する新しい枠組みであるCICを提案する。
視覚的モダリティとLarge Language Models(LLM)を組み合わせた手法に着想を得て,画像から文化カテゴリーに基づく質問を生成する。
4つの異なる文化集団から45人の被験者を対象に行った人的評価から,提案する枠組みがより文化的に記述的なキャプションを生成することが示唆された。
論文 参考訳(メタデータ) (2024-02-08T03:12:25Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - Assessing Cross-Cultural Alignment between ChatGPT and Human Societies:
An Empirical Study [9.919972416590124]
ChatGPTは、対話で人間のような反応を生成できるという異常な能力で広く認知されている。
そこで我々は,ChatGPTの文化的背景を,人間の文化的差異を定量化するための質問に対する応答の分析によって検討した。
論文 参考訳(メタデータ) (2023-03-30T15:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。