Fugu-MT 論文翻訳(概要): RespondeoQA: a Benchmark for Bilingual Latin-English Question Answering

論文の概要: RespondeoQA: a Benchmark for Bilingual Latin-English Question Answering

arxiv url: http://arxiv.org/abs/2604.20738v1
Date: Wed, 22 Apr 2026 16:24:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:11.228782
Title: RespondeoQA: a Benchmark for Bilingual Latin-English Question Answering
Title（参考訳）: RespondeoQA: バイリンガルラテン英語質問回答のベンチマーク
Authors: Marisa Hudspeth, Patrick J. Burns, Brendan O'Connor,
Abstract要約: バイリンガルなラテン語と英語の設定で質問応答と翻訳のためのベンチマークデータセットを導入する。質問は、1800年代から現在にかけての試験、クイズボール様式のトリビア、教科書など、ラテン語の教育資料から寄せられている。データセットには、ナレッジとスキルベース、マルチホップ推論、制約付き翻訳、混合言語ペアなど、さまざまな種類の質問タイプが含まれている。
参考スコア（独自算出の注目度）: 2.5578258168516816
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce a benchmark dataset for question answering and translation in bilingual Latin and English settings, containing about 7,800 question-answer pairs. The questions are drawn from Latin pedagogical sources, including exams, quizbowl-style trivia, and textbooks ranging from the 1800s to the present. After automated extraction, cleaning, and manual review, the dataset covers a diverse range of question types: knowledge- and skill-based, multihop reasoning, constrained translation, and mixed language pairs. To our knowledge, this is the first QA benchmark centered on Latin. As a case study, we evaluate three large language models -- LLaMa 3, Qwen QwQ, and OpenAI's o3-mini -- finding that all perform worse on skill-oriented questions. Although the reasoning models perform better on scansion and literary-device tasks, they offer limited improvement overall. QwQ performs slightly better on questions asked in Latin, but LLaMa3 and o3-mini are more task dependent. This dataset provides a new resource for assessing model capabilities in a specialized linguistic and cultural domain, and the creation process can be easily adapted for other languages. The dataset is available at: https://github.com/slanglab/RespondeoQA
Abstract（参考訳）: 約7,800対の質問応答対を含むバイリンガル・ラテン・英語設定における質問応答と翻訳のためのベンチマークデータセットを提案する。質問は、1800年代から現在にかけての試験、クイズボール様式のトリビア、教科書など、ラテン語の教育資料から寄せられている。自動抽出、クリーニング、手作業によるレビューを経て、データセットは知識とスキルベース、マルチホップ推論、制約付き翻訳、混合言語ペアなど、さまざまな質問タイプをカバーする。私たちの知る限り、これはラテン語を中心とした最初のQAベンチマークです。ケーススタディでは、LLaMa 3、Qwen QwQ、OpenAIのo3-miniの3つの大きな言語モデルを評価する。推論モデルはスキャンや文芸機器のタスクで改善されるが、全体的な改善は限られている。 QwQはラテン語で質問された質問に対して少し改善されているが、LLaMa3とo3-miniの方がタスクに依存している。このデータセットは、特殊言語および文化領域におけるモデル機能を評価するための新しいリソースを提供し、生成プロセスは他の言語にも容易に適用できる。データセットは、https://github.com/slanglab/RespondeoQAで利用可能である。

関連論文リスト

CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文参考訳（メタデータ） (2024-06-25T17:45:26Z)
From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文参考訳（メタデータ） (2024-04-26T11:46:05Z)
Bridging the Language Gap: Knowledge Injected Multilingual Question Answering [19.768708263635176]
本稿では,異なる言語を理解するモデルの能力を高めるために,一般化された言語間移動フレームワークを提案する。実世界のデータセット MLQA に対する実験結果から,提案手法は大きなマージンで性能を向上できることが示された。
論文参考訳（メタデータ） (2023-04-06T15:41:25Z)
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文参考訳（メタデータ） (2022-09-20T07:04:24Z)
ELQA: A Corpus of Metalinguistic Questions and Answers about English [24.006858451437534]
2つのオンラインフォーラムから集められた70k以上の質問は、文法、意味、流布、語源など幅広いトピックをカバーしている。ほとんどのNLPデータセットとは異なり、このコーパスはメタ言語であり、言語に関する言語で構成されています。
論文参考訳（メタデータ） (2022-05-01T04:29:50Z)
Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文参考訳（メタデータ） (2021-02-20T03:52:08Z)
XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文参考訳（メタデータ） (2020-10-22T16:47:17Z)
DaNetQA: a yes/no Question Answering Dataset for the Russian Language [4.33757980378616]
新しい質問回答コーパスであるDaNetQAは以下の通りである(Clarkなどの設計: 自然のイエス/ノーの質問を含む)。各質問は、Wikipediaの段落と、その段落から派生した回答とがペアリングされる。課題は、質問と段落の両方を入力として取り、イエス/ノーの回答、すなわちバイナリ出力を生成することである。
論文参考訳（メタデータ） (2020-10-06T10:30:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。