論文の概要: An Investigation into Value Misalignment in LLM-Generated Texts for Cultural Heritage
- arxiv url: http://arxiv.org/abs/2501.02039v1
- Date: Fri, 03 Jan 2025 14:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:30.095529
- Title: An Investigation into Value Misalignment in LLM-Generated Texts for Cultural Heritage
- Title(参考訳): 文化遺産におけるLLMテキストの価値相違の検討
- Authors: Fan Bu, Zheng Wang, Siyi Wang, Ziyao Liu,
- Abstract要約: 大型言語モデル(LLM)は、文化遺産に関連するタスクでますます普及している。
古文書の翻訳、口伝の保存、教育内容の制作など、歴史的記念物の記述を作成するのに用いられる。
しかし、歴史的事実の誤表現、文化的なアイデンティティの侵食、複雑な文化的な物語の単純化など、文化的な価値の誤認識は発生した文献に存在している可能性がある。
- 参考スコア(独自算出の注目度): 5.893281327912503
- License:
- Abstract: As Large Language Models (LLMs) become increasingly prevalent in tasks related to cultural heritage, such as generating descriptions of historical monuments, translating ancient texts, preserving oral traditions, and creating educational content, their ability to produce accurate and culturally aligned texts is being increasingly relied upon by users and researchers. However, cultural value misalignments may exist in generated texts, such as the misrepresentation of historical facts, the erosion of cultural identity, and the oversimplification of complex cultural narratives, which may lead to severe consequences. Therefore, investigating value misalignment in the context of LLM for cultural heritage is crucial for mitigating these risks, yet there has been a significant lack of systematic and comprehensive study and investigation in this area. To fill this gap, we systematically assess the reliability of LLMs in generating culturally aligned texts for cultural heritage-related tasks. We conduct a comprehensive evaluation by compiling an extensive set of 1066 query tasks covering 5 widely recognized categories with 17 aspects within the knowledge framework of cultural heritage across 5 open-source LLMs, and examine both the type and rate of cultural value misalignments in the generated texts. Using both automated and manual approaches, we effectively detect and analyze the cultural value misalignments in LLM-generated texts. Our findings are concerning: over 65% of the generated texts exhibit notable cultural misalignments, with certain tasks demonstrating almost complete misalignment with key cultural values. Beyond these findings, this paper introduces a benchmark dataset and a comprehensive evaluation workflow that can serve as a valuable resource for future research aimed at enhancing the cultural sensitivity and reliability of LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、歴史資料の記述の作成、古代のテキストの翻訳、口頭伝承の保存、教育コンテンツの作成など、文化的遺産に関連するタスクでますます普及するにつれて、ユーザや研究者によって、正確で文化的に整合したテキストを作成できる能力がますます頼りになってきている。
しかし、歴史的事実の誤表現、文化的アイデンティティの侵食、複雑な文化的物語の単純化など、発生した文献には文化的価値の誤認があり、重大な結果をもたらす可能性がある。
そのため、これらのリスクを軽減するため、文化遺産におけるLLMの文脈における価値の相違を調査することが重要であるが、この分野では体系的かつ包括的な研究や調査が著しく欠落している。
このギャップを埋めるために、文化遺産関連タスクのための文化的に整列したテキストを生成する上で、LCMの信頼性を体系的に評価する。
我々は,5つのオープンソースLCMにおける文化的遺産の知識枠組みにおいて,広く認識されている5つのカテゴリを網羅する1066のクエリタスクを網羅的にコンパイルし,生成したテキストにおける文化的価値の相違のタイプと頻度を両立させて総合的な評価を行う。
自動と手動の両方のアプローチを用いて,LLM生成テキストにおける文化的価値の誤認識を効果的に検出し,分析する。
生成したテキストの65%以上が顕著な文化的不一致を示しており、特定のタスクは重要な文化的価値観とほぼ完全な不一致を示している。
これらの知見以外にも,LCMの文化的感受性と信頼性を高めることを目的とした,将来の研究に有用なベンチマークデータセットと総合評価ワークフローを紹介する。
関連論文リスト
- CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Survey of Cultural Awareness in Language Models: Text and Beyond [39.77033652289063]
大規模言語モデル(LLM)を様々なアプリケーションに大規模に展開するには、LCMはインクリビティを確保するために、ユーザに文化的に敏感である必要がある。
文化は心理学や人類学で広く研究され、近年、LLMをより文化的に包括的にする研究が急増している。
論文 参考訳(メタデータ) (2024-10-30T16:37:50Z) - Navigating the Cultural Kaleidoscope: A Hitchhiker's Guide to Sensitivity in Large Language Models [4.771099208181585]
LLMはますますグローバルなアプリケーションにデプロイされ、さまざまなバックグラウンドを持つユーザが尊敬され、理解されることが保証される。
文化的な害は、これらのモデルが特定の文化的規範と一致しないときに起こり、文化的な価値観の誤った表現や違反をもたらす。
潜在的な文化的不感を露呈するシナリオを通じて、異なる文化的文脈におけるモデルアウトプットを評価するために作成された文化的調和テストデータセットと、多様なアノテータからのフィードバックに基づいた微調整による文化的感受性の回復を目的とした、文化的に整合した選好データセットである。
論文 参考訳(メタデータ) (2024-10-15T18:13:10Z) - Self-Alignment: Improving Alignment of Cultural Values in LLMs via In-Context Learning [13.034603322224548]
In-context Learning(ICL)とヒューマンサーベイデータを組み合わせた簡易で安価な手法を提案する。
本手法は、英語以外のテスト言語で有用であることが証明され、文化的に多種多様な国に対応する文化的価値との整合性を向上させることができる。
論文 参考訳(メタデータ) (2024-08-29T12:18:04Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models [41.885600036131045]
CDEvalは、大規模言語モデルの文化的側面を評価するためのベンチマークである。
GPT-4の自動生成と人間による検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
論文 参考訳(メタデータ) (2023-11-28T02:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。