論文の概要: CUS-QA: Local-Knowledge-Oriented Open-Ended Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2507.22752v1
- Date: Wed, 30 Jul 2025 15:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.276591
- Title: CUS-QA: Local-Knowledge-Oriented Open-Ended Question Answering Dataset
- Title(参考訳): CUS-QA: ローカル知識指向のオープンエンド質問回答データセット
- Authors: Jindřich Libovický, Jindřich Helcl, Andrei Manea, Gianluca Vico,
- Abstract要約: このデータセットは、チェコ語、スロバキア語、ウクライナの母語話者によって作成されたウィキペディアの質問と回答で構成されている。
ベースラインとして,回答の正しさを判断する人間による判断を促進・補完することで,最先端のLCMを評価した。
- 参考スコア(独自算出の注目度): 1.4999444543328293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a benchmark for open-ended regional question answering that encompasses both textual and visual modalities. We also provide strong baselines using state-of-the-art large language models (LLMs). Our dataset consists of manually curated questions and answers grounded in Wikipedia, created by native speakers from Czechia, Slovakia, and Ukraine, with accompanying English translations. It includes both purely textual questions and those requiring visual understanding. As a baseline, we evaluate state-of-the-art LLMs through prompting and complement this with human judgments of answer correctness. Using these human evaluations, we analyze the reliability of existing automatic evaluation metrics. Our baseline results highlight a significant gap in regional knowledge among current LLMs. Moreover, apart from LLM-based evaluation, there is minimal correlation between automated metrics and human judgment. We release this dataset as a resource to (1) assess regional knowledge in LLMs, (2) study cross-lingual generation consistency in a challenging setting, and (3) advance the development of evaluation metrics for open-ended question answering.
- Abstract(参考訳): テキストと視覚の両方を包含するオープンエンド地域質問応答のベンチマークを導入する。
また、最先端の大規模言語モデル(LLM)を用いて、強力なベースラインを提供する。
私たちのデータセットは、チェコ、スロバキア、ウクライナのネイティブスピーカーが作成したウィキペディアで書かれた手作業による質問と回答で構成されています。
純粋にテキストによる質問と視覚的な理解を必要とする質問の両方を含んでいる。
ベースラインとして,回答の正しさを判断する人間による判断を促進・補完することで,最先端のLCMを評価した。
これらの人的評価を用いて、既存の自動評価指標の信頼性を分析する。
本研究のベースラインは,現在のLLMにおける地域知識の差を顕著に示すものである。
さらに, LLMに基づく評価とは別に, 自動測定値と人的判断値との相関は最小限である。
本データセットは,(1)LLMにおける地域知識の評価,(2)挑戦的な環境下での言語間の一貫性の研究,(3)オープンエンド質問応答のための評価指標の開発を進めるためのリソースとしてリリースされている。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data [2.812898346527047]
本研究では,ロシア語とウクライナ語におけるソーシャルメディア投稿のゼロショットおよび少数ショットアノテーションに対する大規模言語モデル(LLM)の機能について検討した。
これらのモデルの有効性を評価するため、それらのアノテーションは、人間の二重注釈付きラベルのゴールドスタンダードセットと比較される。
この研究は、各モデルが示すエラーと不一致のユニークなパターンを探求し、その強み、制限、言語間適応性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-15T13:10:47Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - L3Cube-IndicQuest: A Benchmark Question Answering Dataset for Evaluating Knowledge of LLMs in Indic Context [0.4194295877935868]
L3Cube-IndicQuestは,ゴールド標準の質問応答ベンチマークデータセットである。
データセットには200の質問応答ペアが含まれており、それぞれ英語と19のIndic言語に対応しており、Indicリージョン固有の5つのドメインを含んでいる。
論文 参考訳(メタデータ) (2024-09-13T10:48:35Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。