Fugu-MT 論文翻訳(概要): FoQA: A Faroese Question-Answering Dataset

論文の概要: FoQA: A Faroese Question-Answering Dataset

arxiv url: http://arxiv.org/abs/2502.07642v1
Date: Tue, 11 Feb 2025 15:33:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:48.222678
Title: FoQA: A Faroese Question-Answering Dataset
Title（参考訳）: FoQA: ファロアの質問に答えるデータセット
Authors: Annika Simonsen, Dan Saattrup Nielsen, Hafsteinn Einarsson,
Abstract要約: 2,000のサンプルからなるファロア抽出質問回答データセットであるFoQAについて述べる。このデータセットは、LLM(Large Language Models)と人間の検証を組み合わせた半自動アプローチを用いて作成された。
参考スコア（独自算出の注目度）: 2.91872340568037
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present FoQA, a Faroese extractive question-answering (QA) dataset with 2,000 samples, created using a semi-automated approach combining Large Language Models (LLMs) and human validation. The dataset was generated from Faroese Wikipedia articles using GPT-4-turbo for initial QA generation, followed by question rephrasing to increase complexity and native speaker validation to ensure quality. We provide baseline performance metrics for FoQA across multiple models, including LLMs and BERT, demonstrating its effectiveness in evaluating Faroese QA performance. The dataset is released in three versions: a validated set of 2,000 samples, a complete set of all 10,001 generated samples, and a set of 2,395 rejected samples for error analysis.
Abstract（参考訳）: 本稿では,大規模な言語モデル(LLM)と人間の検証を組み合わせた半自動手法を用いて,2000のサンプルを用いたファロア抽出質問応答(QA)データセットFoQAを提案する。データセットは、最初のQA生成にGPT-4-turboを使用してFaroese Wikipediaの記事から生成され、その後、複雑さを増し、品質を保証するためにネイティブな話者バリデーションを行うための質問文が続く。本稿では,LLMやBERTを含む複数のモデルを対象としたFoQAのベースライン性能指標を提供し,Faroese QAの性能評価の有効性を実証する。データセットは3つのバージョンでリリースされている: 検証済みの2000個のサンプルセット、全10,001個の生成されたサンプルの完全なセット、エラー解析のための2,395個のサンプルセット。

関連論文リスト

VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering [53.662676566188175]
重要なボトルネックは、パブリックで大規模で高品質なビジュアル質問回答(SVQA)データセットの欠如にある。本稿では、まず、図形関連テクストコンテキストとQAペアを生成する検証中心のGenerate-then-Verifyフレームワークを提案する。このフレームワークをインスタンス化し、20の科学的ドメインと12のフィギュアタイプからなる20,351のQAペアのデータセットであるVeriSciQAをキュレートします。
論文参考訳（メタデータ） (2025-11-25T04:14:52Z)
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文参考訳（メタデータ） (2025-03-26T12:42:37Z)
WebFAQ: A Multilingual Collection of Natural Q&A Datasets for Dense Retrieval [0.8478469524684645]
WebFAQ(英語: WebFAQ)は、FAQスタイルのスキーマ.orgアノテーションから派生した、オープンドメインの質問応答データセットの大規模なコレクションである。データ収集は、75言語にまたがる9600万の自然質問回答(QA)ペアで構成されており、うち4700万(49%)が非英語のサンプルである。 WebFAQは、合計1120万QAペアのモノリンガル検索ベンチマーク20の基盤となっている。
論文参考訳（メタデータ） (2025-02-28T10:46:52Z)
Structured List-Grounded Question Answering [11.109829342410265]
文書対話システムは,外部情報を活用することで,ユーザからの問い合わせに答えることを目的としている。従来の研究は主に自由形式の文書を扱うことに焦点を当てており、しばしばリストのような構造化されたデータを見下ろしている。本稿では,構造化リストの解釈と利用を改善するために,質問応答システムを強化することを目的とする。
論文参考訳（メタデータ） (2024-10-04T22:21:43Z)
GeMQuAD : Generating Multilingual Question Answering Datasets from Large Language Models using Few Shot Learning [4.8838210812204235]
本稿では,対象言語に1つの例があるICLを用いて生成されたデータセットに対して,半教師付き学習手法であるGeMQuADを提案する。我々は、特に低リソースの多言語設定において、モデル性能を向上させるために、高品質なデータを反復的に識別する。我々のフレームワークは、ヒンディー語で0.22/1.68 F1/EMポイント、MLQAデータセットでスペイン語で0.82/1.37 F1/EMポイントで機械翻訳拡張モデルより優れています。
論文参考訳（メタデータ） (2024-04-14T06:55:42Z)
QASnowball: An Iterative Bootstrapping Framework for High-Quality Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。 QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文参考訳（メタデータ） (2023-09-19T05:20:36Z)
LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。我々は最先端の要約モデルを用いてベースラインを確立する。複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-05-22T14:53:45Z)
PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文参考訳（メタデータ） (2023-04-24T15:46:26Z)
Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T18:23:43Z)
QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文参考訳（メタデータ） (2022-11-15T16:14:39Z)
Towards Zero-Shot Multilingual Synthetic Question and Answer Generation for Cross-Lingual Reading Comprehension [20.570539023748424]
本稿では,多言語質問と解答ペアを大規模に生成する簡単な方法を提案する。これらの合成サンプルは、ターゲット言語上の多言語QAモデルのゼロショット性能を改善するために使用できる。
論文参考訳（メタデータ） (2020-10-22T19:59:37Z)
Generating Diverse and Consistent QA pairs from Contexts with Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文参考訳（メタデータ） (2020-05-28T08:26:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。