論文の概要: Help Me Write a Story: Evaluating LLMs' Ability to Generate Writing Feedback
- arxiv url: http://arxiv.org/abs/2507.16007v1
- Date: Mon, 21 Jul 2025 18:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.85631
- Title: Help Me Write a Story: Evaluating LLMs' Ability to Generate Writing Feedback
- Title(参考訳): ストーリーを書くのを助ける: LLMのフィードバック生成能力の評価
- Authors: Hannah Rashkin, Elizabeth Clark, Fantine Huot, Mirella Lapata,
- Abstract要約: 我々は1,300のストーリーからなる新しいテストセットを提示し、故意に執筆問題を紹介した。
本研究では,この作業においてよく用いられるLCMの性能を,自動評価と人的評価の両方を用いて検討する。
- 参考スコア(独自算出の注目度): 57.200668979963694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can LLMs provide support to creative writers by giving meaningful writing feedback? In this paper, we explore the challenges and limitations of model-generated writing feedback by defining a new task, dataset, and evaluation frameworks. To study model performance in a controlled manner, we present a novel test set of 1,300 stories that we corrupted to intentionally introduce writing issues. We study the performance of commonly used LLMs in this task with both automatic and human evaluation metrics. Our analysis shows that current models have strong out-of-the-box behavior in many respects -- providing specific and mostly accurate writing feedback. However, models often fail to identify the biggest writing issue in the story and to correctly decide when to offer critical vs. positive feedback.
- Abstract(参考訳): LLMは、有意義な執筆フィードバックを提供することで、クリエイティブなライターをサポートすることができるか?
本稿では,新しいタスク,データセット,評価フレームワークを定義することによって,モデル生成によるフィードバックの課題と限界について考察する。
モデル性能を制御された方法で研究するため,本研究では,意図的な記述問題の導入を意図した1,300ストーリーの新たなテストセットを提示する。
本研究では,この課題においてよく用いられるLCMの性能を,自動評価と人的評価の両方を用いて検討する。
我々の分析は、現在のモデルは、多くの点で、強力なアウト・オブ・ザ・ボックスの振る舞いを持っていることを示しています。
しかし、モデルはしばしばストーリーで最大の書き込みの問題を特定し、いつ批判的なフィードバックと肯定的なフィードバックを提供するべきかを正しく決めることに失敗します。
関連論文リスト
- "I Wrote, I Paused, I Rewrote" Teaching LLMs to Read Between the Lines of Student Writing [0.0]
Geminiのような大規模な言語モデルは、学生の執筆を支援する一般的なツールになりつつある。
彼らのフィードバックの大部分は、そのテキストの書き方に関する重要な文脈を欠いた最後のエッセイに基づいている。
私たちは、学生のタイプとエッセイの時間とともにどのように進化していくかをキャプチャーするデジタル・ライティング・ツールを構築しました。
論文 参考訳(メタデータ) (2025-06-09T20:42:02Z) - Do LLMs Understand Why We Write Diaries? A Method for Purpose Extraction and Clustering [41.94295877935867]
本研究では,大規模言語モデル(LLM)に基づく,日記作成のさまざまな目的を識別・クラスタリングするための新しい手法を提案する。
本手法はソ連時代の日記(1922-1929)において,Prozhitoデジタルアーカイブから適用した。
論文 参考訳(メタデータ) (2025-06-01T12:38:01Z) - Large Language Models for Automated Literature Review: An Evaluation of Reference Generation, Abstract Writing, and Review Composition [2.048226951354646]
大規模言語モデル(LLM)は、文学レビューを書くことに関わる複雑なプロセスを自動化するための潜在的な解決策として登場した。
本研究は,文学書記の3つの重要な課題において,LLMの性能を自動評価する枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-18T08:42:25Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文 参考訳(メタデータ) (2024-03-06T17:16:44Z) - Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers [25.268709339109893]
我々は,最近のLarge Language Models (LLMs) について,短いストーリーを要約する難しい課題について評価する。
私たちは著者と直接協力して、ストーリーがオンラインで共有されていないことを保証しています(従ってモデルによって見つからないのです)。
GPT-4、Claude-2.1、LLama-2-70Bを比較し、全3モデルが50%以上の要約で忠実さの誤りを犯していることを発見した。
論文 参考訳(メタデータ) (2024-03-02T01:52:14Z) - Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。
我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文 参考訳(メタデータ) (2023-10-07T14:12:15Z) - Art or Artifice? Large Language Models and the False Promise of
Creativity [53.04834589006685]
本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。
TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。
分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3~10倍少ないことが判明した。
論文 参考訳(メタデータ) (2023-09-25T22:02:46Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Self-critiquing models for assisting human evaluators [11.1006983438712]
我々は、行動クローンを用いて自然言語批判(自然言語批判コメント)を書くために、大きな言語モデルを微調整する。
トピックベースの要約タスクでは、私たちのモデルによって書かれた批判は、人間が見逃したであろう要約の欠陥を見つけるのに役立ちます。
より大きなモデルはより有用な批評を書くことができ、ほとんどのタスクでは、批判しにくいアウトプットがあるにもかかわらず、自己批判の方が優れている。
論文 参考訳(メタデータ) (2022-06-12T17:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。