論文の概要: A Dataset for Evaluating LLM-based Evaluation Functions for Research Question Extraction Task
- arxiv url: http://arxiv.org/abs/2409.06883v1
- Date: Tue, 10 Sep 2024 21:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 16:16:15.058646
- Title: A Dataset for Evaluating LLM-based Evaluation Functions for Research Question Extraction Task
- Title(参考訳): 調査質問抽出作業のためのLCMに基づく評価関数評価用データセット
- Authors: Yuya Fujisaki, Shiro Takagi, Hideki Asoh, Wataru Kumagai,
- Abstract要約: 本データセットは、機械学習論文と、GPT-4による研究論文から抽出したRQと、抽出したRQの人間による評価からなる。
このデータセットを用いて,最近提案したLCMに基づく要約評価関数を体系的に比較した。
いずれの関数も人間の評価と十分に高い相関関係は示さなかった。
- 参考スコア(独自算出の注目度): 6.757249766769395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The progress in text summarization techniques has been remarkable. However the task of accurately extracting and summarizing necessary information from highly specialized documents such as research papers has not been sufficiently investigated. We are focusing on the task of extracting research questions (RQ) from research papers and construct a new dataset consisting of machine learning papers, RQ extracted from these papers by GPT-4, and human evaluations of the extracted RQ from multiple perspectives. Using this dataset, we systematically compared recently proposed LLM-based evaluation functions for summarizations, and found that none of the functions showed sufficiently high correlations with human evaluations. We expect our dataset provides a foundation for further research on developing better evaluation functions tailored to the RQ extraction task, and contribute to enhance the performance of the task. The dataset is available at https://github.com/auto-res/PaperRQ-HumanAnno-Dataset.
- Abstract(参考訳): テキスト要約技術の進歩は目覚ましい。
しかし,研究論文などの高度専門文書から必要な情報を正確に抽出・要約する作業は十分に検討されていない。
我々は,研究論文から研究質問(RQ)を抽出し,機械学習論文から抽出したRQ,GPT-4によるこれらの論文から抽出したRQ,および複数の視点から抽出したRQの人的評価からなる新しいデータセットを構築することに注力している。
このデータセットを用いて,最近提案したLCMに基づく要約評価関数を体系的に比較し,これらの関数がヒト評価と十分に高い相関関係を示さなかったことを発見した。
我々のデータセットは、RQ抽出タスクに適したより良い評価関数の開発に関するさらなる研究の基盤を提供し、タスクの性能向上に寄与することを期待している。
データセットはhttps://github.com/auto-res/PaperRQ-HumanAnno-Datasetで公開されている。
関連論文リスト
- CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Can LLMs Augment Low-Resource Reading Comprehension Datasets? Opportunities and Challenges [3.130575840003799]
GPT-4は、既存の読解データセットを強化するために使用できる。
この研究は、QAシステムのための合成データ拡張器としてLLMを初めて分析した。
論文 参考訳(メタデータ) (2023-09-21T18:48:02Z) - QontSum: On Contrasting Salient Content for Query-focused Summarization [22.738731393540633]
クエリ中心の要約(QFS)は、特定のクエリに対処する要約を生成する自然言語処理において難しいタスクである。
本稿では,GARにおけるQFSの役割について述べる。
コントラスト学習を利用したQFSの新しい手法であるQontSumを提案する。
論文 参考訳(メタデータ) (2023-07-14T19:25:35Z) - QuOTeS: Query-Oriented Technical Summarization [0.2936007114555107]
提案するQuOTeSは,潜在的参照の集合から研究の要約に関連する文章を検索するインタラクティブシステムである。
QuOTeS は Query-Focused Extractive Summarization と High-Recall Information Retrieval の技法を統合し、科学文書のインタラクティブなクエリ-Focused Summarization を提供する。
結果から,QuOTeSは肯定的なユーザエクスペリエンスを提供し,関連する,簡潔かつ完全なクエリ中心の要約を一貫して提供することが明らかになった。
論文 参考訳(メタデータ) (2023-06-20T18:43:24Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。
本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。
最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文 参考訳(メタデータ) (2020-12-29T14:39:35Z) - QBSUM: a Large-Scale Query-Based Document Summarization Dataset from
Real-world Applications [20.507631900617817]
提案するQBSUMは,中国語クエリベースの文書要約処理のための49,000以上のデータサンプルからなる高品質な大規模データセットである。
また,タスクに対する教師なしおよび教師なしの複数のソリューションを提案し,オフライン実験とオンラインA/Bテストの両方を通して,高速な推論と優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-27T07:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。