論文の概要: An Evaluation on Large Language Model Outputs: Discourse and
Memorization
- arxiv url: http://arxiv.org/abs/2304.08637v1
- Date: Mon, 17 Apr 2023 22:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 16:22:05.144044
- Title: An Evaluation on Large Language Model Outputs: Discourse and
Memorization
- Title(参考訳): 大規模言語モデル出力の評価:談話と記憶
- Authors: Adrian de Wynter, Xun Wang, Alex Sokolov, Qilong Gu and Si-Qing Chen
- Abstract要約: 記憶されたテキストの割合、ユニークなテキストの割合、全体的な出力品質の相関関係を見出した。
全体として、評価された出力の80.0%は記憶されたデータを含んでいるが、最も記憶されたコンテンツを含む出力も高い品質と見なされる傾向にあった。
- 参考スコア(独自算出の注目度): 19.187539450567936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an empirical evaluation of various outputs generated by nine of
the most widely-available large language models (LLMs). Our analysis is done
with off-the-shelf, readily-available tools. We find a correlation between
percentage of memorized text, percentage of unique text, and overall output
quality, when measured with respect to output pathologies such as
counterfactual and logically-flawed statements, and general failures like not
staying on topic. Overall, 80.0% of the outputs evaluated contained memorized
data, but outputs containing the most memorized content were also more likely
to be considered of high quality. We discuss and evaluate mitigation
strategies, showing that, in the models evaluated, the rate of memorized text
being output is reduced. We conclude with a discussion on potential
implications around what it means to learn, to memorize, and to evaluate
quality text.
- Abstract(参考訳): 本稿では,最も広く普及している大言語モデル(LLM)の9つの出力を実証的に評価する。
分析は市販のツールを使って行います。
本研究は,文章の暗記率,一意テキストの割合,および全出力品質の相関関係を,反実的文や論理的に定式化された文などのアウトプット・パロジに関して測定し,話題に留まらないような一般的な失敗とを関連づけた。
総合的に評価した出力の80.0%は記憶されたデータを含むが、記憶された内容が最も多く含む出力は高品質であると考えられた。
評価されたモデルでは、記憶されたテキストの出力率が減少することを示すため、緩和戦略を議論し、評価する。
我々は、学習し、記憶し、質の高いテキストを評価することの意味に関する潜在的な意味についての議論を締めくくった。
関連論文リスト
- What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文 参考訳(メタデータ) (2024-06-30T16:12:37Z) - Text Sentiment Analysis and Classification Based on Bidirectional Gated Recurrent Units (GRUs) Model [6.096738978232722]
本稿では,自然言語処理分野におけるテキスト感情分析と分類の重要性について考察する。
双方向ゲート再帰単位(GRU)モデルに基づく感情分析と分類の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-26T02:40:03Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Demonstrations Are All You Need: Advancing Offensive Content Paraphrasing using In-Context Learning [10.897468059705238]
監督されたパラフレーズは、意味と意図を維持するために大量のラベル付きデータに大きく依存している。
本稿では,大規模言語モデル(LLM)を用いたICL(In-Context Learning)を探索し,実践者を支援することを目的とする。
本研究は, 実演数と順序, 即時指導の排除, 測定毒性の低下など, 重要な要因に焦点を当てた。
論文 参考訳(メタデータ) (2023-10-16T16:18:55Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Factually Consistent Summarization via Reinforcement Learning with
Textual Entailment Feedback [57.816210168909286]
我々は,この問題を抽象的な要約システムで解くために,テキストエンテーメントモデルの最近の進歩を活用している。
我々は、事実整合性を最適化するために、レファレンスフリーのテキストエンターメント報酬を用いた強化学習を用いる。
自動測定と人的評価の両結果から,提案手法は生成した要約の忠実さ,サリエンス,簡潔さを著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-05-31T21:04:04Z) - On the State of German (Abstractive) Text Summarization [3.1776833268555134]
ドイツの抽象的テキスト要約の景観を評価する。
業界において,抽象的なテキスト要約のための実用的なソリューションがいまだに欠落している理由を考察する。
論文 参考訳(メタデータ) (2023-01-17T18:59:20Z) - The Factual Inconsistency Problem in Abstractive Text Summarization: A
Survey [25.59111855107199]
Seq2Seqフレームワークによって開発されたニューラルエンコーダデコーダモデルは、より抽象的な要約を生成するという目標を達成するために提案されている。
高いレベルでは、そのようなニューラルネットワークは、使用される単語やフレーズに制約を加えることなく、自由に要約を生成することができる。
しかし、神経モデルの抽象化能力は二重刃の剣である。
論文 参考訳(メタデータ) (2021-04-30T08:46:13Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。