論文の概要: Developing PUGG for Polish: A Modern Approach to KBQA, MRC, and IR Dataset Construction
- arxiv url: http://arxiv.org/abs/2408.02337v1
- Date: Mon, 5 Aug 2024 09:23:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 13:56:46.292588
- Title: Developing PUGG for Polish: A Modern Approach to KBQA, MRC, and IR Dataset Construction
- Title(参考訳): ポーランド語のためのPUGGの開発:KBQA, MRC, IRデータセット構築への最近のアプローチ
- Authors: Albert Sawczyn, Katsiaryna Viarenich, Konrad Wojtasik, Aleksandra Domogała, Marcin Oleksy, Maciej Piasecki, Tomasz Kajdanowicz,
- Abstract要約: KBQA、Machine Reading(MRC)、Information Retrieval(IR)といったタスクを含む、データセット作成のための最新の半自動アプローチを導入する。
本稿では,包括的実装,洞察力のある発見,詳細な統計,ベースラインモデルの評価を行う。
- 参考スコア(独自算出の注目度): 43.045596895389345
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Advancements in AI and natural language processing have revolutionized machine-human language interactions, with question answering (QA) systems playing a pivotal role. The knowledge base question answering (KBQA) task, utilizing structured knowledge graphs (KG), allows for handling extensive knowledge-intensive questions. However, a significant gap exists in KBQA datasets, especially for low-resource languages. Many existing construction pipelines for these datasets are outdated and inefficient in human labor, and modern assisting tools like Large Language Models (LLM) are not utilized to reduce the workload. To address this, we have designed and implemented a modern, semi-automated approach for creating datasets, encompassing tasks such as KBQA, Machine Reading Comprehension (MRC), and Information Retrieval (IR), tailored explicitly for low-resource environments. We executed this pipeline and introduced the PUGG dataset, the first Polish KBQA dataset, and novel datasets for MRC and IR. Additionally, we provide a comprehensive implementation, insightful findings, detailed statistics, and evaluation of baseline models.
- Abstract(参考訳): AIと自然言語処理の進歩は、質問応答(QA)システムが重要な役割を果たすなど、機械学習と自然言語の相互作用に革命をもたらした。
構造化知識グラフ(KG)を利用した知識ベース質問応答(KBQA)タスクは、幅広い知識集約的な質問を処理することができる。
しかし、KBQAデータセット、特に低リソース言語には大きなギャップがある。
これらのデータセットのための既存の構築パイプラインの多くは時代遅れで、人間の作業では効率が悪く、Large Language Models (LLM)のような現代的な補助ツールを使用していない。
これを解決するために、KBQA、Machine Reading Comprehension(MRC)、Information Retrieval(IR)といったタスクを包含し、低リソース環境向けに明示的に調整された、データセット作成のための現代的な半自動化アプローチを設計、実装しました。
我々はこのパイプラインを実行し、PUGGデータセット、最初のポーランドのKBQAデータセット、MSCとIRのための新しいデータセットを導入した。
さらに、総合的な実装、洞察力のある発見、詳細な統計、ベースラインモデルの評価を提供する。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - Interactive-KBQA: Multi-Turn Interactions for Knowledge Base Question Answering with Large Language Models [7.399563588835834]
Interactive-KBQAは知識ベース(KB)との直接インタラクションを通じて論理形式を生成するように設計されたフレームワークである
提案手法は,WebQuestionsSP, ComplexWebQuestions, KQA Pro, MetaQAデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-02-23T06:32:18Z) - ADMUS: A Progressive Question Answering Framework Adaptable to Multiple
Knowledge Sources [9.484792817869671]
ADMUSは,多様なデータセットに対応するために設計された,プログレッシブな知識ベース質問応答フレームワークである。
我々のフレームワークは、最小限の労力で、新しいデータセットのシームレスな統合をサポートします。
論文 参考訳(メタデータ) (2023-08-09T08:46:39Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Towards More Equitable Question Answering Systems: How Much More Data Do
You Need? [15.401330338654203]
ステップバックして、既存のリソースを最大限に活用して、多くの言語でQAシステムを開発するためのアプローチを研究します。
具体的には、自動翻訳とコンテキスト-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せの順に拡張された数ショットアプローチの有効性を評価するために、広範囲に分析を行った。
我々は、QAデータセットやシステムの言語カバレッジを高めることを目的として、固定アノテーション予算をより活用するための将来のデータセット開発活動を提案する。
論文 参考訳(メタデータ) (2021-05-28T21:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。