論文の概要: PROXYQA: An Alternative Framework for Evaluating Long-Form Text
Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2401.15042v2
- Date: Mon, 12 Feb 2024 03:32:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:43:57.006001
- Title: PROXYQA: An Alternative Framework for Evaluating Long-Form Text
Generation with Large Language Models
- Title(参考訳): PROXYQA:大規模言語モデルを用いた長文生成のための代替フレームワーク
- Authors: Haochen Tan, Zhijiang Guo, Zhan Shi, Lu Xu, Zhili Liu, Yunlong Feng,
Xiaoguang Li, Yasheng Wang, Lifeng Shang, Qun Liu, Linqi Song
- Abstract要約: 大規模言語モデル(LLM)は、長期的文脈理解タスクにおいて顕著な成功を収めた。
現在のベンチマークでは、情報的かつ包括的なコンテンツを生成するLLMの能力は十分に評価されていない。
長文テキスト生成を評価するフレームワークであるtextsc ProxyQA を紹介する。
- 参考スコア(独自算出の注目度): 74.73330587411532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have exhibited remarkable success in long-form
context comprehension tasks. However, their capacity to generate long contents,
such as reports and articles, remains insufficiently explored. Current
benchmarks do not adequately assess LLMs' ability to produce informative and
comprehensive content, necessitating a more rigorous evaluation approach. In
this study, we introduce \textsc{ProxyQA}, a framework for evaluating long-form
text generation, comprising in-depth human-curated \textit{meta-questions}
spanning various domains. Each meta-question contains corresponding
\textit{proxy-questions} with annotated answers. LLMs are prompted to generate
extensive content in response to these meta-questions. Utilizing an evaluator
and incorporating generated content as background context, \textsc{ProxyQA}
evaluates the quality of generated content based on the evaluator's performance
in answering the \textit{proxy-questions}. We examine multiple LLMs,
emphasizing \textsc{ProxyQA}'s demanding nature as a high-quality assessment
tool. Human evaluation demonstrates that evaluating through
\textit{proxy-questions} is a highly self-consistent and
human-criteria-correlated validation method. The dataset and leaderboard will
be available at \url{https://github.com/Namco0816/ProxyQA}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長期的文脈理解タスクにおいて顕著な成功を収めた。
しかし、レポートや記事などの長い内容を生成する能力は依然として不十分である。
現在のベンチマークでは、情報的かつ包括的コンテンツを生成するLLMの能力は十分に評価されておらず、より厳密な評価アプローチが必要である。
そこで本研究では,様々な領域にまたがる詳細な人文計算を行う長文テキスト生成フレームワークである \textsc{ProxyQA} について紹介する。
各メタクエストは、注釈付き回答を持つ対応する \textit{proxy-questions} を含む。
LLMはこれらのメタクエストに応答して広範なコンテンツを生成するよう促される。
評価器を利用し、生成したコンテンツを背景コンテキストとして組み込むことにより、評価器のパフォーマンスに基づいて生成されたコンテンツの品質を評価する。
高品質評価ツールとして,複数のllmを調べ, \textsc{proxyqa} の要求性を強調した。
人的評価は, <textit{proxy-questions} による評価が, 自己整合性が高く, 人的基準に関連のある検証方法であることを示す。
データセットとリーダーボードは \url{https://github.com/Namco0816/ProxyQA} で入手できる。
関連論文リスト
- Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Model Internals-based Answer Attribution for Trustworthy Retrieval-Augmented Generation [8.975024781390077]
MIRAGE --Model Internals-based RAG Explanations -- このモデル内部を用いたプラグアンドプレイアプローチは、質問応答アプリケーションにおける忠実な回答属性である。
提案手法を多言語QAデータセット上で評価し,人間の回答属性と高い一致性を見いだした。
論文 参考訳(メタデータ) (2024-06-19T16:10:26Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.19073789961769]
生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。
MATEval: "Multi-Agent Text Evaluation framework"を提案する。
本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
論文 参考訳(メタデータ) (2024-03-28T10:41:47Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。