論文の概要: Information Asymmetry across Language Varieties: A Case Study on Cantonese-Mandarin and Bavarian-German QA
- arxiv url: http://arxiv.org/abs/2603.14782v1
- Date: Mon, 16 Mar 2026 03:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.030791
- Title: Information Asymmetry across Language Varieties: A Case Study on Cantonese-Mandarin and Bavarian-German QA
- Title(参考訳): 言語品種間の情報非対称性:カントーン・マンダリンとバイエルン・ドイツのQAを事例として
- Authors: Renhao Pei, Siyao Peng, Verena Blaschke, Robert Litschko, Barbara Plank,
- Abstract要約: 大規模言語モデル(LLM)は、人間が知識を求める共通の方法になりつつあるが、その範囲と信頼性は様々である。
ローカルなウィキペディアページで伝達される知識をキャプチャする,新たな課題探索データセットを手作業で構築する。
実験の結果,LLMはウィキペディアのローカル版でのみ,情報に関する質問に答えることができないことがわかった。
- 参考スコア(独自算出の注目度): 37.126690247869426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are becoming a common way for humans to seek knowledge, yet their coverage and reliability vary widely. Especially for local language varieties, there are large asymmetries, e.g., information in local Wikipedia that is absent from the standard variant. However, little is known about how well LLMs perform under such information asymmetry, especially on closely related languages. We manually construct a novel challenge question-answering (QA) dataset that captures knowledge conveyed on a local Wikipedia page, which is absent from their higher-resource counterparts-covering Mandarin Chinese vs. Cantonese and German vs. Bavarian. Our experiments show that LLMs fail to answer questions about information only in local editions of Wikipedia. Providing context from lead sections substantially improves performance, with further gains possible via translation. Our topical, geographic annotations, and stratified evaluations reveal the usefulness of local Wikipedia editions as sources of both regional and global information. These findings raise critical questions about inclusivity and cultural coverage of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間が知識を求める共通の方法になりつつあるが、その範囲と信頼性は様々である。
特にローカル言語の変種には、標準変種にはないローカルウィキペディアの情報を例に挙げて、大きな対称性が存在する。
しかしながら、LLMがそのような情報非対称性の下で、特に密接に関連する言語でどれだけうまく機能するかは、ほとんど分かっていない。
ローカルなウィキペディアページで伝達される知識をキャプチャする新しい挑戦質問回答データセットを手作業で構築する。
実験の結果,LLMはウィキペディアのローカル版でのみ,情報に関する質問に答えることができないことがわかった。
リードセクションからコンテキストを提供することでパフォーマンスが大幅に向上し、翻訳によってさらに向上する。
地域情報とグローバル情報の両方の情報源として,地域版ウィキペディアが有用であることを明らかにする。
これらの知見はLCMの傾きと文化的包括性に関する批判的な疑問を提起する。
関連論文リスト
- Disparities in Multilingual LLM-Based Healthcare Q&A [15.114074152947971]
多言語医療Q&A回答における事前学習源の言語間差異と事実整合性について検討した。
以上の結果から,ウィキペディアのカバー範囲とLLMのファクトアライメントの両面での言語間差が顕著であった。
推論時に非英語ウィキペディアからの文脈的抜粋を提供することは、事実的アライメントを文化的に関連のある知識へと効果的にシフトさせる。
論文 参考訳(メタデータ) (2025-10-20T12:19:08Z) - ECLeKTic: a Novel Challenge Set for Evaluation of Cross-Lingual Knowledge Transfer [40.3285891624575]
本稿では,言語間の知識伝達を評価する多言語クローズドブックQAデータセットであるECLeKTicを提案する。
われわれは12言語でWikipediaの記事の存在と欠落を利用して、ある言語で事前学習されているが、他の言語では利用できない可能性のある情報の断片を検出した。
現在のSOTAモデルは、知識が獲得された言語における質問に対する回答を予測できるとしても、言語間での知識の効果的な共有に苦慮していることを示す。
論文 参考訳(メタデータ) (2025-02-28T16:59:30Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Design Challenges in Low-resource Cross-lingual Entity Linking [56.18957576362098]
言語間エンティティリンク (XEL) は、外国語テキスト中のエンティティの言及をウィキペディアのような英語の知識ベースに根拠付ける問題である。
本稿は、英語のウィキペディアの候補タイトルを、特定の外国語の言及に対応付けて識別する重要なステップに焦点を当てる。
本稿では,検索エンジンのクエリログを利用した簡易で効果的なゼロショットXELシステムQuELを提案する。
論文 参考訳(メタデータ) (2020-05-02T04:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。