論文の概要: CUS-QA: Local-Knowledge-Oriented Open-Ended Question Answering Dataset
- arxiv url: http://arxiv.org/abs/2507.22752v2
- Date: Thu, 21 Aug 2025 12:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 14:03:17.226894
- Title: CUS-QA: Local-Knowledge-Oriented Open-Ended Question Answering Dataset
- Title(参考訳): CUS-QA: ローカル知識指向のオープンエンド質問回答データセット
- Authors: Jindřich Libovický, Jindřich Helcl, Andrei Manea, Gianluca Vico,
- Abstract要約: オープンエンド地域質問応答のベンチマークであるCUS-QAを紹介する。
我々は最先端の大規模言語モデル(LLM)を用いて強力なベースラインを提供する。
我々は,人間の回答の正当性判断を促し,それを補うことによって,最先端のLCMを評価した。
- 参考スコア(独自算出の注目度): 1.4999444543328293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CUS-QA, a benchmark for open-ended regional question answering that encompasses both textual and visual modalities. We also provide strong baselines using state-of-the-art large language models (LLMs). Our dataset consists of manually curated questions and answers grounded in Wikipedia, created by native speakers from Czechia, Slovakia, and Ukraine, with accompanying English translations. It includes both purely textual questions and those requiring visual understanding. We evaluate state-of-the-art LLMs through prompting and complement this with human judgments of answer correctness. Using these human evaluations, we analyze the reliability of existing automatic evaluation metrics. Our baseline results show that even the best open-weight LLMs achieve only around 50% accuracy on textual questions and below 30% on visual questions. LLM-based evaluation metrics show strong correlation with human judgment, while traditional string-overlap metrics perform surprisingly well due to the prevalence of named entities in answers.
- Abstract(参考訳): CUS-QAは、テキストと視覚の両方を包含する、オープンな地域質問応答のためのベンチマークである。
また、最先端の大規模言語モデル(LLM)を用いて、強力なベースラインを提供する。
私たちのデータセットは、チェコ、スロバキア、ウクライナのネイティブスピーカーが作成したウィキペディアで書かれた手作業による質問と回答で構成されています。
純粋にテキストによる質問と視覚的な理解を必要とする質問の両方を含んでいる。
我々は,人間の回答の正当性判断を促し,それを補うことによって,最先端のLCMを評価した。
これらの人的評価を用いて、既存の自動評価指標の信頼性を分析する。
その結果,最高のオープンウェイトLLMであっても,テキスト質問では50%程度,視覚質問では30%未満の精度しか達成できないことがわかった。
LLMに基づく評価尺度は、人間の判断と強い相関を示す一方、従来の文字列オーバーラップの指標は、回答中の名前付きエンティティの頻度のために驚くほどよく機能する。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data [2.812898346527047]
本研究では,ロシア語とウクライナ語におけるソーシャルメディア投稿のゼロショットおよび少数ショットアノテーションに対する大規模言語モデル(LLM)の機能について検討した。
これらのモデルの有効性を評価するため、それらのアノテーションは、人間の二重注釈付きラベルのゴールドスタンダードセットと比較される。
この研究は、各モデルが示すエラーと不一致のユニークなパターンを探求し、その強み、制限、言語間適応性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-15T13:10:47Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - L3Cube-IndicQuest: A Benchmark Question Answering Dataset for Evaluating Knowledge of LLMs in Indic Context [0.4194295877935868]
L3Cube-IndicQuestは,ゴールド標準の質問応答ベンチマークデータセットである。
データセットには200の質問応答ペアが含まれており、それぞれ英語と19のIndic言語に対応しており、Indicリージョン固有の5つのドメインを含んでいる。
論文 参考訳(メタデータ) (2024-09-13T10:48:35Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Systematic Assessment of Factual Knowledge in Large Language Models [48.75961313441549]
本稿では,知識グラフ(KG)を活用して,大規模言語モデル(LLM)の事実知識を評価する枠組みを提案する。
本フレームワークは,所定のKGに格納された事実から質問の集合と期待された回答を自動的に生成し,これらの質問に答える際のLCMの精度を評価する。
論文 参考訳(メタデータ) (2023-10-18T00:20:50Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。