論文の概要: PARSE: An Open-Domain Reasoning Question Answering Benchmark for Persian
- arxiv url: http://arxiv.org/abs/2602.01246v1
- Date: Sun, 01 Feb 2026 14:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.677192
- Title: PARSE: An Open-Domain Reasoning Question Answering Benchmark for Persian
- Title(参考訳): PARSE:ペルシアのベンチマークに回答するオープンドメイン推論の質問
- Authors: Jamshid Mozafari, Seyed Parsa Mousavinasab, Adam Jatowt,
- Abstract要約: 我々は、最初のオープンドメインペルシャ推論QAベンチマークであるPARSEを紹介する。
Boolean、複数選択、ファクトイドフォーマットで10,800の質問がある。
制御されたLLMベースの生成パイプラインを使用して構築され、人間の評価によって検証される。
- 参考スコア(独自算出の注目度): 23.04786342076179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning-focused Question Answering (QA) has advanced rapidly with Large Language Models (LLMs), yet high-quality benchmarks for low-resource languages remain scarce. Persian, spoken by roughly 130 million people, lacks a comprehensive open-domain resource for evaluating reasoning-capable QA systems. We introduce PARSE, the first open-domain Persian reasoning QA benchmark, containing 10,800 questions across Boolean, multiple-choice, and factoid formats, with diverse reasoning types, difficulty levels, and answer structures. The benchmark is built via a controlled LLM-based generation pipeline and validated through human evaluation. We also ensure linguistic and factual quality through multi-stage filtering, annotation, and consistency checks. We benchmark multilingual and Persian LLMs under multiple prompting strategies and show that Persian prompts and structured prompting (CoT for Boolean/multiple-choice; few-shot for factoid) improve performance. Fine-tuning further boosts results, especially for Persian-specialized models. These findings highlight how PARSE supports both fair comparison and practical model adaptation. PARSE fills a critical gap in Persian QA research and provides a strong foundation for developing and evaluating reasoning-capable LLMs in low-resource settings.
- Abstract(参考訳): QA(Reasoning- Focus Question Answering)は、LLM(Large Language Models)によって急速に進歩しているが、低リソース言語のための高品質なベンチマークは依然として乏しい。
約1億3000万人が話すペルシア語には、推論可能なQAシステムを評価するための包括的なオープンドメインリソースがない。
我々は、Boolean、Multi-choice、ファクトイドフォーマットに10,800の質問を含む、最初のオープンドメインペルシャ推論QAベンチマークであるPARSEを紹介し、多様な推論タイプ、難易度、回答構造について紹介する。
ベンチマークは制御されたLLMベースの生成パイプラインを使用して構築され、人間の評価によって検証される。
また、多段階フィルタリング、アノテーション、一貫性チェックを通じて言語的および事実的品質を保証します。
我々は複数のプロンプト戦略の下で多言語とペルシャのLLMをベンチマークし、ペルシャのプロンプトと構造的プロンプト(CoTはブール/複数選択、ファクトイドは少数ショット)が性能を向上させることを示す。
ファインチューニングは、特にペルシャ特化モデルの結果をさらに加速させる。
これらの結果は、PARSEが公正比較と実用的なモデル適応の両方をサポートするかを示している。
PARSEはペルシアのQA研究において重要なギャップを埋め、低リソース環境における推論可能なLCMの開発と評価のための強力な基盤を提供する。
関連論文リスト
- Benchmarking Open-Source Large Language Models for Persian in Zero-Shot and Few-Shot Learning [0.0]
本稿では,ペルシャ自然言語処理タスクのためのオープンソースの大規模言語モデル (LLM) のベンチマークを示す。
我々は、感情分析、名前付きエンティティ認識、読書理解、質問応答など、様々なタスクのモデルを評価する。
その結果、Gemma 2は両方の学習パラダイムにおいて、ほぼすべてのタスクで、他のモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-05T10:10:04Z) - Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering [1.1458853556386799]
本稿では,128Kのコンテキストウィンドウを持つ大規模言語モデル(LLM)を技術的質問応答(QA)タスク上で評価するケーススタディを提案する。
私たちのベンチマークは、英語、フランス語、ドイツ語で利用可能な農業機械のユーザーマニュアルに基づいて構築されています。
マニュアルの3つの言語バージョンすべてに対して、質問を英語で提示する言語間情報検索シナリオをシミュレートする。
この評価は現実的な "needle-in-a-haystack" の問題に焦点を合わせ、幻覚の検査に答えられない質問を含む。
論文 参考訳(メタデータ) (2025-08-25T14:54:46Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - FarsEval-PKBETS: A new diverse benchmark for evaluating Persian large language models [0.5221124918965586]
本稿では,ペルシア語における大規模言語モデルを評価するためのFarsEvalプロジェクトのサブセットであるFarsEval-PKBETSベンチマークを紹介する。
このベンチマークは4000の質問と、複数の選択、短い回答、記述的な応答を含む様々な形式の回答で構成されている。
医学、法律、宗教、ペルシア語、百科事典知識、人間の嗜好、社会知識、倫理と偏見、テキスト生成、他者の権利の尊重など幅広い分野やタスクをカバーしている。
論文 参考訳(メタデータ) (2025-04-20T17:43:47Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT [4.574416868427695]
本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。
本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
論文 参考訳(メタデータ) (2024-04-03T02:12:29Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。