論文の概要: Culture Cartography: Mapping the Landscape of Cultural Knowledge
- arxiv url: http://arxiv.org/abs/2510.27672v1
- Date: Fri, 31 Oct 2025 17:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.191791
- Title: Culture Cartography: Mapping the Landscape of Cultural Knowledge
- Title(参考訳): 文化カルトグラフィー:文化知識の景観をマッピングする
- Authors: Caleb Ziems, William Held, Jane Yu, Amir Goldberg, David Grusky, Diyi Yang,
- Abstract要約: グローバルなユーザを安全かつ生産的に提供するためには、LLMには、事前トレーニング中に学ばない文化固有の知識が必要だ。
カルチャーカルトグラフィーと呼ばれる混合開始法を提案する。
ここで、LCMは、信頼度が低い回答を質問して注釈を初期化し、それ以前の知識とそのギャップの両方を明確にする。
これにより、人間の応答者がこれらのギャップを埋めて、直接編集することで、適切なトピックに向けてモデルを操ることが可能になる。
LLMが提案する質問に人間が答えるベースラインと比較すると、CultureExplorerはDeepSeek R1やGPT-4oのような主要なモデルが持つ知識をより効果的に生成することがわかった。
- 参考スコア(独自算出の注目度): 50.502555170749694
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To serve global users safely and productively, LLMs need culture-specific knowledge that might not be learned during pre-training. How do we find such knowledge that is (1) salient to in-group users, but (2) unknown to LLMs? The most common solutions are single-initiative: either researchers define challenging questions that users passively answer (traditional annotation), or users actively produce data that researchers structure as benchmarks (knowledge extraction). The process would benefit from mixed-initiative collaboration, where users guide the process to meaningfully reflect their cultures, and LLMs steer the process towards more challenging questions that meet the researcher's goals. We propose a mixed-initiative methodology called CultureCartography. Here, an LLM initializes annotation with questions for which it has low-confidence answers, making explicit both its prior knowledge and the gaps therein. This allows a human respondent to fill these gaps and steer the model towards salient topics through direct edits. We implement this methodology as a tool called CultureExplorer. Compared to a baseline where humans answer LLM-proposed questions, we find that CultureExplorer more effectively produces knowledge that leading models like DeepSeek R1 and GPT-4o are missing, even with web search. Fine-tuning on this data boosts the accuracy of Llama-3.1-8B by up to 19.2% on related culture benchmarks.
- Abstract(参考訳): グローバルなユーザを安全かつ生産的に提供するためには、LLMには、事前トレーニング中に学ばない文化固有の知識が必要だ。
1)グループ内ユーザにとって健全な知識はどうやって見つけるのか、(2)LSMにとって未知な知識は何か?
研究者は、ユーザーが受動的に答える挑戦的な質問(従来のアノテーション)を定義するか、研究者がベンチマークとして構造化するデータ(知識抽出)を積極的に生成する。
このプロセスは、ユーザが自分たちの文化を有意義に反映するためのプロセスをガイドし、LLMは研究者の目標を満たすより困難な問題に向けてプロセスを運営する、混合開始的なコラボレーションの恩恵を受けるだろう。
カルチャーカルトグラフィーと呼ばれる混合開始法を提案する。
ここで、LCMは、低信頼の回答を持つ質問でアノテーションを初期化し、その先行知識とそのギャップの両方を明確にする。
これにより、人間の応答者がこれらのギャップを埋めて、直接編集することで、適切なトピックに向けてモデルを操ることが可能になる。
この方法論をCultureExplorerというツールとして実装しています。
LLMが提案する質問に人間が答えるベースラインと比較して、CultureExplorerはWeb検索においてもDeepSeek R1やGPT-4oのような主要なモデルが欠落している知識をより効果的に生成する。
このデータの微調整により、関連するカルチャーベンチマークでLlama-3.1-8Bの精度が19.2%向上する。
関連論文リスト
- CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [62.9861554207279]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
我々は,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を実践し,事実知識に干渉することを発見した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - CulturalBench: A Robust, Diverse, and Challenging Cultural Benchmark by Human-AI CulturalTeaming [75.82306181299153]
カルチャーベンチ(CulturalBench)は、LMの文化的知識を評価するための1,696の人文・人文的な質問である。
バングラデシュ、ジンバブエ、ペルーなど45の地域をカバーしている。
我々はHuman-AI Red-Teamingにインスパイアされた手法を用いてCulturalBenchを構築した。
論文 参考訳(メタデータ) (2024-10-03T17:04:31Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - Knowledge-Augmented Large Language Models for Personalized Contextual
Query Suggestion [16.563311988191636]
我々は,Web上での検索と閲覧活動に基づいて,各ユーザを対象としたエンティティ中心の知識ストアを構築した。
この知識ストアは、公的な知識グラフ上の興味と知識のユーザ固有の集約予測のみを生成するため、軽量である。
論文 参考訳(メタデータ) (2023-11-10T01:18:47Z) - Can LLMs Grade Short-Answer Reading Comprehension Questions : An Empirical Study with a Novel Dataset [0.0]
本稿では,Large Language Models (LLMs) の最新のバージョンが,形式的アセスメントのための短解問題に使用される可能性について検討する。
ガーナで150人以上の学生が実施した一連の読解評価から抽出した,短い回答読解質問の新しいデータセットを紹介した。
本論文は, 有能なヒトラッカーと比較して, 生成性LLMの児童短解反応の各種構成がいかに良好かを実証的に評価した。
論文 参考訳(メタデータ) (2023-10-26T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。