論文の概要: Intrinsic Task-based Evaluation for Referring Expression Generation
- arxiv url: http://arxiv.org/abs/2402.07432v1
- Date: Mon, 12 Feb 2024 06:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:32:59.607515
- Title: Intrinsic Task-based Evaluation for Referring Expression Generation
- Title(参考訳): 固有タスクベースによる参照表現生成の評価
- Authors: Guanyi Chen, Fahime Same, Kees van Deemter
- Abstract要約: 最先端のニューラルモデルによって生成されたReferring Expressions(REs)は、textscwebnlgのREsと区別できないだけでなく、単純なルールベースシステムによって生成されたREsからも区別できない。
ここでは、この制限は、純粋に評価に基づく人間評価の使用に起因する可能性があると論じる。
本稿では,REGモデルに対する本質的なタスクベース評価を提案し,REsの品質の評価に加えて,2つのメタレベルタスクの達成が求められた。
- 参考スコア(独自算出の注目度): 9.322715583523928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, a human evaluation study of Referring Expression Generation (REG)
models had an unexpected conclusion: on \textsc{webnlg}, Referring Expressions
(REs) generated by the state-of-the-art neural models were not only
indistinguishable from the REs in \textsc{webnlg} but also from the REs
generated by a simple rule-based system. Here, we argue that this limitation
could stem from the use of a purely ratings-based human evaluation (which is a
common practice in Natural Language Generation). To investigate these issues,
we propose an intrinsic task-based evaluation for REG models, in which, in
addition to rating the quality of REs, participants were asked to accomplish
two meta-level tasks. One of these tasks concerns the referential success of
each RE; the other task asks participants to suggest a better alternative for
each RE. The outcomes suggest that, in comparison to previous evaluations, the
new evaluation protocol assesses the performance of each REG model more
comprehensively and makes the participants' ratings more reliable and
discriminable.
- Abstract(参考訳): 近年, Referring Expression Generation (REG) モデルに対する人間による評価研究が予期せぬ結論を得た: \textsc{webnlg} では, 最先端のニューラルモデルによって生成された Referring Expressions (REs) は, REs in \textsc{webnlg} の REs と区別できないだけでなく, 単純なルールベースシステムによって生成された REs からも区別できない。
ここでは、この制限は、純粋に評価に基づく人的評価(自然言語生成における一般的な実践)の使用に起因する可能性があると論じる。
そこで本研究では,REGモデルに対する本質的なタスクベース評価を提案し,REsの品質の評価に加えて,2つのメタレベルタスクの達成が求められた。
これらのタスクの1つは、各reの参照成功に関するもので、もう1つのタスクは、参加者に各reに対するより良い代替案を提案する。
その結果,従来の評価と比べ,各REGモデルの性能をより包括的に評価し,参加者の格付けをより信頼性と差別性を高めることが示唆された。
関連論文リスト
- Referring Expression Generation in Visually Grounded Dialogue with Discourse-aware Comprehension Guiding [3.8673630752805446]
本稿では,差別的かつ言論に適さない参照表現(REs)を生成するための参照表現生成(REG)手法を提案する。
人体評価の結果,提案する2段階のアプローチが差別的REの創出に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-09-09T15:33:07Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Whether you can locate or not? Interactive Referring Expression
Generation [12.148963878497243]
本稿では,実際のRECモデルと対話可能な対話型REG(IREG)モデルを提案する。
IREGは、一般的な評価指標において、過去の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-08-19T10:53:32Z) - A Comprehensive Survey on Relation Extraction: Recent Advances and New Frontiers [76.51245425667845]
関係抽出(RE)は、基礎となるコンテンツからエンティティ間の関係を識別する。
ディープニューラルネットワークはREの分野を支配しており、顕著な進歩を遂げている。
この調査は、現実世界のREシステムの課題に対処するための研究者の協力的な取り組みを促進することが期待されている。
論文 参考訳(メタデータ) (2023-06-03T08:39:25Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - RISE: Leveraging Retrieval Techniques for Summarization Evaluation [3.9215337270154995]
本稿では,情報検索技術を活用した要約評価手法RISEを提案する。
RISEは、まず二重エンコーダ検索設定を用いて検索タスクとして訓練され、その後、ゴールド参照要約なしで入力された文書から生成された要約を評価するために利用することができる。
我々は,SummEvalベンチマーク(Fabbri et al., 2021)の総合的な実験を行い, RISEが従来の要約評価手法と比較して人間評価と高い相関性を示した。
論文 参考訳(メタデータ) (2022-12-17T01:09:22Z) - An Overview of Distant Supervision for Relation Extraction with a Focus
on Denoising and Pre-training Methods [0.0]
関係抽出は自然言語処理の基本課題である。
RE法の歴史は、パターンベースRE、統計ベースRE、ニューラルベースRE、大規模言語モデルベースREの4つのフェーズに大別できる。
論文 参考訳(メタデータ) (2022-07-17T21:02:04Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。