論文の概要: Releasing the CRaQAn (Coreference Resolution in Question-Answering): An
open-source dataset and dataset creation methodology using
instruction-following models
- arxiv url: http://arxiv.org/abs/2311.16338v1
- Date: Mon, 27 Nov 2023 21:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:04:29.962376
- Title: Releasing the CRaQAn (Coreference Resolution in Question-Answering): An
open-source dataset and dataset creation methodology using
instruction-following models
- Title(参考訳): CRaQAn (Coreference Resolution in Question-Answering):指示追従モデルを用いたオープンソースのデータセットとデータセット作成手法
- Authors: Rob Grzywinski, Joshua D'Arcy, Rob Naidoff, Ashish Shukla, Alex
Browne, Ren Gibbons, Brinnae Bent
- Abstract要約: 本稿では,質問応答におけるコア参照解決の厳密な情報検索要求に対応するオープンソースデータセットであるCRaQAnデータセットについて述べる。
このデータセットを開発するために,命令追従モデル (GPT-4) と再帰的批判・改善ループを用いて高品質なデータセットを作成する新しい手法を開発した。
- 参考スコア(独自算出の注目度): 0.5772546394254112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-following language models demand robust methodologies for
information retrieval to augment instructions for question-answering
applications. A primary challenge is the resolution of coreferences in the
context of chunking strategies for long documents. The critical barrier to
experimentation of handling coreferences is a lack of open source datasets,
specifically in question-answering tasks that require coreference resolution.
In this work we present our Coreference Resolution in Question-Answering
(CRaQAn) dataset, an open-source dataset that caters to the nuanced information
retrieval requirements of coreference resolution in question-answering tasks by
providing over 250 question-answer pairs containing coreferences. To develop
this dataset, we developed a novel approach for creating high-quality datasets
using an instruction-following model (GPT-4) and a Recursive Criticism and
Improvement Loop.
- Abstract(参考訳): 命令追従言語モデルは、質問応答アプリケーションの指示を補強するために、情報検索のための堅牢な方法論を要求する。
主な課題は、長い文書のチャンキング戦略の文脈におけるコリファレンスの解決である。
コア参照を扱うための実験における重要な障壁は、オープンソースデータセットの欠如、特にコア参照解決を必要とする質問応答タスクである。
本研究では,コリファレンスを含む250以上の質問応答ペアを提供することにより,コリファレンス解決のニュアンス情報検索要件に対応するオープンソースデータセットである,craqanデータセットにおけるコリファレンス解決を提案する。
このデータセットを開発するために,命令追従モデル(GPT-4)と再帰的批判・改善ループを用いて高品質なデータセットを作成する手法を開発した。
関連論文リスト
- Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding [28.191029786204624]
大規模言語モデル(LLM)の性能向上を目的としたLong Question Coreference Adaptation (LQCA) 手法を提案する。
このフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。
このフレームワークはLLMの扱いやすいパーティションを提供し、理解を深める。
論文 参考訳(メタデータ) (2024-10-02T15:39:55Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Question Answering Survey: Directions, Challenges, Datasets, Evaluation
Matrices [0.0]
QA分野の研究の方向性は,質問の種類,回答の種類,根拠の源泉,モデリングアプローチに基づいて分析される。
これに続き、自動質問生成、類似性検出、言語に対する低リソース可用性など、この分野のオープンな課題が続きます。
論文 参考訳(メタデータ) (2021-12-07T08:53:40Z) - Reference Knowledgeable Network for Machine Reading Comprehension [43.352833140317486]
マルチチョイスマシン読み取り(MRC)は、MRCタスクの重要かつ挑戦的な形式です。
参照知識ネットワーク(RekNet)と呼ばれるスパン抽出に基づく参照型知識強化モデルを提案する。
詳細では、RekNetは詳細なクリティカル情報を洗練し、Reference Spanと定義し、Reference Spanの共起情報と回答オプションによって外部知識の4倍を引用する。
論文 参考訳(メタデータ) (2020-12-07T14:11:33Z) - Tell Me How to Ask Again: Question Data Augmentation with Controllable
Rewriting in Continuous Space [94.8320535537798]
機械読解(MRC)、質問生成、質問答え自然言語推論タスクのための制御可能な書き換えベースの質問データ拡張(CRQDA)。
質問データ拡張タスクを制約付き質問書き換え問題として扱い、コンテキスト関連、高品質、多様な質問データサンプルを生成する。
論文 参考訳(メタデータ) (2020-10-04T03:13:46Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z) - Rapidly Bootstrapping a Question Answering Dataset for COVID-19 [88.86456834766288]
我々は、新型コロナウイルスに特化して設計された質問応答データセットの始まりであるCovidQAを紹介する。
これは、そのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
論文 参考訳(メタデータ) (2020-04-23T17:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。