論文の概要: PROXYQA: An Alternative Framework for Evaluating Long-Form Text
Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2401.15042v3
- Date: Tue, 13 Feb 2024 13:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 12:02:44.711703
- Title: PROXYQA: An Alternative Framework for Evaluating Long-Form Text
Generation with Large Language Models
- Title(参考訳): PROXYQA:大規模言語モデルを用いた長文生成のための代替フレームワーク
- Authors: Haochen Tan, Zhijiang Guo, Zhan Shi, Lu Xu, Zhili Liu, Yunlong Feng,
Xiaoguang Li, Yasheng Wang, Lifeng Shang, Qun Liu, Linqi Song
- Abstract要約: 大規模言語モデル(LLM)は、長期的文脈理解タスクにおいて顕著な成功を収めた。
現在のベンチマークでは、情報的かつ包括的なコンテンツを生成するLLMの能力は十分に評価されていない。
長文テキスト生成を評価するフレームワークであるtextsc ProxyQA を紹介する。
- 参考スコア(独自算出の注目度): 74.73330587411532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have exhibited remarkable success in long-form
context comprehension tasks. However, their capacity to generate long contents,
such as reports and articles, remains insufficiently explored. Current
benchmarks do not adequately assess LLMs' ability to produce informative and
comprehensive content, necessitating a more rigorous evaluation approach. In
this study, we introduce \textsc{ProxyQA}, a framework for evaluating long-form
text generation, comprising in-depth human-curated \textit{meta-questions}
spanning various domains. Each meta-question contains corresponding
\textit{proxy-questions} with annotated answers. LLMs are prompted to generate
extensive content in response to these meta-questions. Utilizing an evaluator
and incorporating generated content as background context, \textsc{ProxyQA}
evaluates the quality of generated content based on the evaluator's performance
in answering the \textit{proxy-questions}. We examine multiple LLMs,
emphasizing \textsc{ProxyQA}'s demanding nature as a high-quality assessment
tool. Human evaluation demonstrates that evaluating through
\textit{proxy-questions} is a highly self-consistent and
human-criteria-correlated validation method. The dataset and leaderboard will
be available at \url{https://github.com/Namco0816/ProxyQA}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長期的文脈理解タスクにおいて顕著な成功を収めた。
しかし、レポートや記事などの長い内容を生成する能力は依然として不十分である。
現在のベンチマークでは、情報的かつ包括的コンテンツを生成するLLMの能力は十分に評価されておらず、より厳密な評価アプローチが必要である。
そこで本研究では,様々な領域にまたがる詳細な人文計算を行う長文テキスト生成フレームワークである \textsc{ProxyQA} について紹介する。
各メタクエストは、注釈付き回答を持つ対応する \textit{proxy-questions} を含む。
LLMはこれらのメタクエストに応答して広範なコンテンツを生成するよう促される。
評価器を利用し、生成したコンテンツを背景コンテキストとして組み込むことにより、評価器のパフォーマンスに基づいて生成されたコンテンツの品質を評価する。
高品質評価ツールとして,複数のllmを調べ, \textsc{proxyqa} の要求性を強調した。
人的評価は, <textit{proxy-questions} による評価が, 自己整合性が高く, 人的基準に関連のある検証方法であることを示す。
データセットとリーダーボードは \url{https://github.com/Namco0816/ProxyQA} で入手できる。
関連論文リスト
- Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - Controllable Multi-document Summarization: Coverage & Coherence
Intuitive Policy with Large Language Model Based Rewards [42.171703872560286]
可制御性(英: controllability)とは、複数文書の要約などの長い入力を持つテキスト生成タスクにおいて問題となる問題である。
LLMによって洗練されるテキストを抽出するために、制御可能なコンテンツ抽出スキームを訓練する。
提案手法は,ROUGE測定値を用いた評価において競争結果が得られ,コヒーレンスにおける潜在的なベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-10-05T11:29:09Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Hybrid Long Document Summarization using C2F-FAR and ChatGPT: A
Practical Study [1.933681537640272]
ChatGPTは、大規模言語モデル(LLM)分野における最新のブレークスルーである。
本稿では,ビジネス記事や書籍などの長い文書のハイブリッド抽出と要約パイプラインを提案する。
以上の結果から,ChatGPTの使用は長文を要約するための非常に有望なアプローチであるが,まだ成熟していないことが示唆された。
論文 参考訳(メタデータ) (2023-06-01T21:58:33Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。