論文の概要: GenRES: Rethinking Evaluation for Generative Relation Extraction in the
Era of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.10744v1
- Date: Fri, 16 Feb 2024 15:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 15:39:07.053576
- Title: GenRES: Rethinking Evaluation for Generative Relation Extraction in the
Era of Large Language Models
- Title(参考訳): GenRES:大規模言語モデルの時代における生成的関係抽出のための再考
- Authors: Pengcheng Jiang, Jiacheng Lin, Zifeng Wang, Jimeng Sun, Jiawei Han
- Abstract要約: 我々は、GRE結果の類似性、特異性、粒度、事実性、完全性の観点から、多次元評価のためのGenRESを紹介する。
GenRESでは、精度/リコールがGREメソッドの性能を正当化できないことを実証的に確認した。
次に、GRE手法のヒト評価を行い、GenRESがRE品質に対するヒトの嗜好と一致していることを示す。
- 参考スコア(独自算出の注目度): 48.56814147033251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of relation extraction (RE) is experiencing a notable shift towards
generative relation extraction (GRE), leveraging the capabilities of large
language models (LLMs). However, we discovered that traditional relation
extraction (RE) metrics like precision and recall fall short in evaluating GRE
methods. This shortfall arises because these metrics rely on exact matching
with human-annotated reference relations, while GRE methods often produce
diverse and semantically accurate relations that differ from the references. To
fill this gap, we introduce GenRES for a multi-dimensional assessment in terms
of the topic similarity, uniqueness, granularity, factualness, and completeness
of the GRE results. With GenRES, we empirically identified that (1)
precision/recall fails to justify the performance of GRE methods; (2)
human-annotated referential relations can be incomplete; (3) prompting LLMs
with a fixed set of relations or entities can cause hallucinations. Next, we
conducted a human evaluation of GRE methods that shows GenRES is consistent
with human preferences for RE quality. Last, we made a comprehensive evaluation
of fourteen leading LLMs using GenRES across document, bag, and sentence level
RE datasets, respectively, to set the benchmark for future research in GRE
- Abstract(参考訳): 関係抽出(RE)の分野は、大規模言語モデル(LLM)の機能を活用して、生成関係抽出(GRE)への顕著なシフトを経験している。
しかし、GRE法の評価において、精度やリコールといった従来の関係抽出(RE)指標が不足していることが判明した。
この欠点は、これらのメトリクスが人間の注釈付き参照関係と正確なマッチングに依存しているのに対して、GREメソッドは参照と異なる多様で意味的に正確な関係を生成することが多いためである。
このギャップを埋めるために, トピックの類似性, 特異性, 粒度, 事実性, およびgr結果の完全性の観点から, 多次元評価のためのジャンルを紹介する。
GenRESでは,(1)精度/リコールがGRE法の性能を正当化できないこと,(2)人間による注釈付き参照関係が不完全であること,(3)固定された関係や実体を持つLCMが幻覚を引き起こすことを実証的に確認した。
次に、GRE手法のヒト評価を行い、GenRESがRE品質に対するヒトの嗜好と一致していることを示す。
最後に, 文書, バッグ, 文レベルのREデータセットを用いた14種類のLLMの総合評価を行い, GREにおける将来の研究のためのベンチマークを設定した。
関連論文リスト
- Benchmarking LLMs' Judgments with No Gold Standard [8.517244114791913]
GEM(Generative Estimator for Mutual Information)は,Large Language Models (LLMs) による言語生成を評価するための評価指標である。
人間の注釈付きデータセットの実験では、GEMは最先端のGPT-4o Examinerと比較して、人間のスコアと競合する相関を示す。
また,学術論文の良質なピアレビューをいかに生み出すかに基づいて,LCMを評価したGREベンチについても紹介する。
論文 参考訳(メタデータ) (2024-11-11T16:58:36Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Whether you can locate or not? Interactive Referring Expression
Generation [12.148963878497243]
本稿では,実際のRECモデルと対話可能な対話型REG(IREG)モデルを提案する。
IREGは、一般的な評価指標において、過去の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-08-19T10:53:32Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - GPT-RE: In-context Learning for Relation Extraction using Large Language
Models [43.968903620208444]
GPT-REは、関係抽出における大きな言語モデルと完全な教師付きベースラインのギャップを埋める。
広く使われている4つのREデータセット上でGPT-REを評価し、GPT-REが既存のGPT-3ベースラインよりも改善されていることを観察した。
論文 参考訳(メタデータ) (2023-05-03T13:28:08Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - A Hybrid Model of Classification and Generation for Spatial Relation
Extraction [10.611528850772869]
本稿ではまず,空間関係抽出を生成課題とみなし,新しいハイブリッドモデル HMCGR を提案する。
SpaceEvalの実験結果によると、HMCGRはSOTAのベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2022-08-15T01:31:44Z) - Should We Rely on Entity Mentions for Relation Extraction? Debiasing
Relation Extraction with Counterfactual Analysis [60.83756368501083]
文レベルの関係抽出のためのCORE(Counterfactual Analysis based Relation extract)デバイアス法を提案する。
我々のCORE法は,トレーニングプロセスを変更することなく,推論中に既存のREシステムを劣化させるモデルに依存しない。
論文 参考訳(メタデータ) (2022-05-08T05:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。