論文の概要: Measuring and Modifying the Readability of English Texts with GPT-4
- arxiv url: http://arxiv.org/abs/2410.14028v1
- Date: Thu, 17 Oct 2024 21:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:48.834669
- Title: Measuring and Modifying the Readability of English Texts with GPT-4
- Title(参考訳): GPT-4による英語テキストの可読性の測定と修正
- Authors: Sean Trott, Pamela D. Rivière,
- Abstract要約: GPT-4 Turbo と GPT-4o mini の可読性評価は, 人間の判断と相対的に高い相関性を示した。
事前登録された人間の実験では、Turboがテキストを確実に読みやすくするか、読みにくいかを尋ねる。
この仮説を支持する証拠は見つかっているが、人間の判断にかなりのばらつきは説明されていない。
- 参考スコア(独自算出の注目度): 2.532202013576547
- License:
- Abstract: The success of Large Language Models (LLMs) in other domains has raised the question of whether LLMs can reliably assess and manipulate the readability of text. We approach this question empirically. First, using a published corpus of 4,724 English text excerpts, we find that readability estimates produced ``zero-shot'' from GPT-4 Turbo and GPT-4o mini exhibit relatively high correlation with human judgments (r = 0.76 and r = 0.74, respectively), out-performing estimates derived from traditional readability formulas and various psycholinguistic indices. Then, in a pre-registered human experiment (N = 59), we ask whether Turbo can reliably make text easier or harder to read. We find evidence to support this hypothesis, though considerable variance in human judgments remains unexplained. We conclude by discussing the limitations of this approach, including limited scope, as well as the validity of the ``readability'' construct and its dependence on context, audience, and goal.
- Abstract(参考訳): 他の領域におけるLLM(Large Language Models)の成功は、LLMがテキストの可読性を確実に評価し、操作できるかどうかという疑問を提起している。
私たちはこの質問に実証的にアプローチする。
まず,英文抜粋4,724件のコーパスを用いて,GPT-4 Turbo と GPT-4o mini の可読性推定値が,従来の可読性公式と様々な心理言語指標から導出された評価値(r = 0.76 および r = 0.74 )と相対的に高い相関性を示した。
そして、事前登録された人体実験(N = 59)において、Turboがテキストを確実に読みやすくするか、読みにくいかを尋ねる。
この仮説を支持する証拠は見つかっているが、人間の判断にかなりのばらつきは説明されていない。
我々は,「可読性」の構成の妥当性と,その文脈,聴衆,目標への依存性など,このアプローチの限界について論じる。
関連論文リスト
- Beyond Turing Test: Can GPT-4 Sway Experts' Decisions? [14.964922012236498]
本稿では,生成したテキストが読者の判断にどう影響するかを,アマチュアと専門家の両方に焦点をあてる。
以上の結果から,GPT-4はアマチュアとプロの双方の意思決定に影響を及ぼす説得的分析を生ずる可能性が示唆された。
その結果、観客反応による実世界評価と、生成モデルによく用いられる現在の多次元評価器との間に高い相関関係が示された。
論文 参考訳(メタデータ) (2024-09-25T07:55:36Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Supporting Human Raters with the Detection of Harmful Content using Large Language Models [8.580258386804282]
大規模言語モデル (LLMs) は, 人間の判断と比較して90%の精度を達成できることを実証した。
人間の評価とLLMを統合した5つのデザインパターンを提案する。
提案した手法を現実世界のレビューキューで試行することで、利用可能な人間のレーダ容量の最適化が41.5%向上したことを共有しています。
論文 参考訳(メタデータ) (2024-06-18T17:12:50Z) - An Evaluation of Estimative Uncertainty in Large Language Models [3.04503073434724]
推定の不確実性は長い間、CIAなどの諜報機関を含む研究領域であった。
本研究は,一般用大言語モデル(LLM)における推定の不確かさを,人間と相互に比較した。
GPT-3.5 や GPT-4 のような LLM は人間の推定値と一致している。
論文 参考訳(メタデータ) (2024-05-24T03:39:31Z) - Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。
テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。
以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文 参考訳(メタデータ) (2024-05-17T03:50:28Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - An In-depth Evaluation of GPT-4 in Sentence Simplification with
Error-based Human Assessment [10.816677544269782]
我々は,GPT-4の単純化機能を評価するために,エラーベースのヒューマンアノテーションフレームワークを設計する。
その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。