論文の概要: Injecting Knowledge from Social Science Journals to Improve Indonesian Cultural Understanding by LLMs
- arxiv url: http://arxiv.org/abs/2601.12921v1
- Date: Mon, 19 Jan 2026 10:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.858616
- Title: Injecting Knowledge from Social Science Journals to Improve Indonesian Cultural Understanding by LLMs
- Title(参考訳): LLMによるインドネシアの文化的理解向上のための社会科学雑誌からの知識注入
- Authors: Adimulya Kartiyasa, Bao Gia Cao, Boyang Li,
- Abstract要約: 本稿では,IndoSoSciという,インドネシアの151のオープンソース社会科学ジャーナルから作成された,学術論文の新たなテキストデータセットについて紹介する。
インドネシアの文化的知識を大規模言語モデル(LLM)に注入するための効果的なレシピを実証する。
提案したレシピは、IndoCultureベンチマークのいくつかの強力なベースラインに対して、強いパフォーマンス向上をもたらす。
- 参考スコア(独自算出の注目度): 2.8912413740517757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently there have been intensifying efforts to improve the understanding of Indonesian cultures by large language models (LLMs). An attractive source of cultural knowledge that has been largely overlooked is local journals of social science, which likely contain substantial cultural studies from a native perspective. We present a novel text dataset of journal article passages, created from 151 open-source Indonesian social science journals, called IndoSoSci. We demonstrate an effective recipe for injecting Indonesian cultural knowledge therein into LLMs: extracting the facts related to Indonesian culture, and apply retrieval-augmented generation (RAG) with LLM-generated hypothetical documents as queries during retrieval. The proposed recipe yields strong performance gains over several strong baselines on the IndoCulture benchmark. Additionally, by combining IndoSoSci with Indonesian Wikipedia, we set a new state-of-the-art accuracy on the IndoCulture benchmark.
- Abstract(参考訳): 近年,大型言語モデル (LLM) によるインドネシア文化の理解向上に向けた取り組みが活発化している。
文化的知識の魅力的な源泉は、社会科学の地域誌であり、おそらくは土着の観点からの文化的研究を含んでいる。
本稿では,IndoSoSciという,インドネシアの151のオープンソース社会科学ジャーナルから作成された,学術論文の新たなテキストデータセットについて紹介する。
インドネシアの文化知識を LLM に注入するための効果的なレシピとして, インドネシア文化に関連する事実を抽出し, 検索中に LLM 生成した仮説文書をクエリとして検索強化生成(RAG)を適用した。
提案したレシピは、IndoCultureベンチマークのいくつかの強力なベースラインに対して、強いパフォーマンス向上をもたらす。
さらに、IndoSoSciとインドネシアのWikipediaを組み合わせることで、IndoCultureベンチマークに最先端の精度を新たに設定しました。
関連論文リスト
- CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - CARE: Multilingual Human Preference Learning for Cultural Awareness [48.760262639641496]
我々は,3,490の文化的特異な質問と31.7kの人的判断応答を含む多言語リソースであるtextbfCAREを紹介する。
質の高いネイティブな嗜好の質が、様々なLMの文化意識をいかに向上させるかを示す。
分析の結果,初期の文化的パフォーマンスが向上したモデルの方がアライメントの恩恵を受けやすいことがわかった。
論文 参考訳(メタデータ) (2025-04-07T14:57:06Z) - Culturally-Nuanced Story Generation for Reasoning in Low-Resource Languages: The Case of Javanese and Sundanese [12.208154616426052]
大規模言語モデル(LLM)がジャワ語とスンダ語で文化的にニュアンスな物語を生成できるかどうかを検証する。
筆者らは,(1) LLM支援ストーリーに文化的手がかりを付与し,(2)インドネシアのベンチマークから機械翻訳を行い,(3)ネイティブなストーリーを提示する3つのデータ生成戦略を比較した。
各データセットのモデルを微調整し、分類と生成のための人為的なテストセットで評価する。
論文 参考訳(メタデータ) (2025-02-18T15:14:58Z) - Through the Prism of Culture: Evaluating LLMs' Understanding of Indian Subcultures and Traditions [9.331687165284587]
インド社会におけるリトル・トラディションを認識し,正確に応答する大規模言語モデルの能力を評価する。
一連のケーススタディを通じて、LLMが支配的なグレートトラディションとローカライズされたリトルトラディションの相互作用のバランスをとることができるかどうかを評価する。
その結果,LLMは文化的ニュアンスを表現できる能力を示す一方で,実践的,文脈特異的なシナリオにこの理解を適用するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-28T06:58:25Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [47.57055368312541]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。
我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文 参考訳(メタデータ) (2024-04-10T08:49:27Z) - Cultural Commonsense Knowledge for Intercultural Dialogues [31.079990829088857]
本稿では,文化知識の高精度・高精度な主張を蒸留する方法であるMANGOについて述べる。
GPT-3.5でMANGO法を実行すると、30Kのコンセプトと11Kのカルチャーに対して167Kの高精度なアサーションが得られる。
MANGOから知識を追加することで、対話応答の全体的な品質、特異性、文化的感受性が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-16T13:46:38Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。