Fugu-MT 論文翻訳(概要): KAHANI: Culturally-Nuanced Visual Storytelling Pipeline for Non-Western Cultures

論文の概要: KAHANI: Culturally-Nuanced Visual Storytelling Pipeline for Non-Western Cultures

arxiv url: http://arxiv.org/abs/2410.19419v1
Date: Fri, 25 Oct 2024 09:23:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.343916
Title: KAHANI: Culturally-Nuanced Visual Storytelling Pipeline for Non-Western Cultures
Title（参考訳）: 花谷:非西洋文化のための文化に根ざしたビジュアル・ストーリーテリング・パイプライン
Authors: Hamna, Deepthi Sudharsan, Agrima Seth, Ritvik Budhiraja, Deepika Khullar, Vyshak Jain, Kalika Bali, Aditya Vashistha, Sameer Segal,
Abstract要約: 我々は、西洋文化以外の文化に対して、文化的基盤を持つビジュアルストーリーを生成する「カハニ」と呼ばれるビジュアルストーリーテリングパイプラインを開発する。思考の連鎖(CoT)とT2Iプロンプト技術を用いて、ユーザのプロンプトから文化的文脈を捉え、キャラクターやシーン構成の鮮明な記述を生成する。
参考スコア（独自算出の注目度）: 13.316043476626907
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) and Text-To-Image (T2I) models have demonstrated the ability to generate compelling text and visual stories. However, their outputs are predominantly aligned with the sensibilities of the Global North, often resulting in an outsider's gaze on other cultures. As a result, non-Western communities have to put extra effort into generating culturally specific stories. To address this challenge, we developed a visual storytelling pipeline called KAHANI that generates culturally grounded visual stories for non-Western cultures. Our pipeline leverages off-the-shelf models GPT-4 Turbo and Stable Diffusion XL (SDXL). By using Chain of Thought (CoT) and T2I prompting techniques, we capture the cultural context from user's prompt and generate vivid descriptions of the characters and scene compositions. To evaluate the effectiveness of KAHANI, we conducted a comparative user study with ChatGPT-4 (with DALL-E3) in which participants from different regions of India compared the cultural relevance of stories generated by the two tools. Results from the qualitative and quantitative analysis performed on the user study showed that KAHANI was able to capture and incorporate more Culturally Specific Items (CSIs) compared to ChatGPT-4. In terms of both its cultural competence and visual story generation quality, our pipeline outperformed ChatGPT-4 in 27 out of the 36 comparisons.
Abstract（参考訳）: 大規模言語モデル(LLM)とテキスト・ツー・イメージ(T2I)モデルは、魅力的なテキストやビジュアルストーリーを生成する能力を示した。しかし、そのアウトプットは主にグローバル・ノースの感度と一致しており、しばしば外部の人々が他の文化を見つめる結果となった。その結果、西洋以外の地域社会は、文化的に特定の物語を生み出すために余分な努力を払わなければならない。この課題に対処するため,欧米以外の文化に対して,文化的に根ざしたビジュアルストーリーを生成する,KAHANIというビジュアルストーリーテリングパイプラインを開発した。我々のパイプラインは、既製のモデルGPT-4 TurboとStable Diffusion XL(SDXL)を活用している。思考の連鎖(CoT)とT2Iプロンプト技術を用いて、ユーザのプロンプトから文化的文脈を捉え、キャラクターやシーン構成の鮮明な記述を生成する。カハニの有効性を評価するため、インド各地の参加者を対象にChatGPT-4(DALL-E3)を用いて比較調査を行った。その結果, HANIはChatGPT-4と比較して, より文化的に特異的な項目(CSI)を捕捉し, 組み込むことができた。文化的な能力と視覚的なストーリー生成の質の両面で、パイプラインは36件中27件でChatGPT-4を上回りました。

関連論文リスト

TALES: A Taxonomy and Analysis of Cultural Representations in LLM-generated Stories [24.375203423945816]
本稿では,インドにおける多様な文化アイデンティティのためのLCM生成物語における文化的誤表現の評価手法であるTALESについて述べる。本研究では,インドにおける生活経験の参加者からの洞察を収集し,文化的誤表現の分類法であるTALES-Taxを開発した。このアノテーションを,基礎モデルの文化的知識を評価するために,スタンドアローンの質問銀行であるTALES-QAに変換する。
論文参考訳（メタデータ） (2025-11-26T12:07:32Z)
Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation [43.352493955825736]
現在のT2Iモデルは、多言語的なプロンプトの下で、文化的に中立な結果や英語に偏った結果をもたらすことが多い。本稿では,培養感受性シグナルを少数の固定層内の小さなニューロン群に局在させる探索法を提案する。
論文参考訳（メタデータ） (2025-11-21T14:40:50Z)
From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文参考訳（メタデータ） (2025-05-22T09:00:01Z)
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。 RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文参考訳（メタデータ） (2025-05-20T14:57:16Z)
CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文参考訳（メタデータ） (2025-04-09T13:40:13Z)
CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.82306181299153]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文参考訳（メタデータ） (2024-10-03T17:04:31Z)
Are Generative Language Models Multicultural? A Study on Hausa Culture and Emotions using ChatGPT [4.798444680860121]
我々は,ChatGPTが生成した回答と,母国語話者が提供した回答とを,文化的に関連のある37の質問に対して比較した。以上の結果から,ChatGPTは人間の反応とある程度の類似性を持っているが,ハウサ文化と感情に対する知識と認識のギャップやバイアスも示している。
論文参考訳（メタデータ） (2024-06-27T19:42:13Z)
Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文参考訳（メタデータ） (2024-06-17T14:03:27Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
CultureBank: An Online Community-Driven Knowledge Base Towards Culturally Aware Language Technologies [53.2331634010413]
CultureBankは、ユーザの自己物語に基づいて構築された知識ベースである。 TikTokから12K、Redditから1Kの文化的記述が含まれている。今後の文化的に意識された言語技術に対する推奨事項を提示する。
論文参考訳（メタデータ） (2024-04-23T17:16:08Z)
Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing [20.020624506393577]
我々は,MARVLベンチマークデータセットを用いてGPT-4Vを広範囲に探索し,その能力と視覚的理解の限界について検討した。実験結果から,GPT-4Vは文化概念の同定に優れるが,低リソース言語では依然として性能が弱いことが示唆された。
論文参考訳（メタデータ） (2024-02-08T19:25:40Z)
CIC: A framework for Culturally-aware Image Captioning [2.565964707090901]
本稿では,文化を表すイメージの視覚的要素から抽出された文化要素をキャプションとして表現し,表現する新しい枠組みであるCICを提案する。視覚的モダリティとLarge Language Models(LLM)を組み合わせた手法に着想を得て,画像から文化カテゴリーに基づく質問を生成する。 4つの異なる文化集団から45人の被験者を対象に行った人的評価から,提案する枠組みがより文化的に記述的なキャプションを生成することが示唆された。
論文参考訳（メタデータ） (2024-02-08T03:12:25Z)
Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。 LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文参考訳（メタデータ） (2023-10-19T05:38:23Z)
Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文参考訳（メタデータ） (2023-08-25T14:50:13Z)
On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-06T13:17:55Z)
Assessing Cross-Cultural Alignment between ChatGPT and Human Societies: An Empirical Study [9.919972416590124]
ChatGPTは、対話で人間のような反応を生成できるという異常な能力で広く認知されている。そこで我々は,ChatGPTの文化的背景を,人間の文化的差異を定量化するための質問に対する応答の分析によって検討した。
論文参考訳（メタデータ） (2023-03-30T15:43:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。