論文の概要: LLM Review: Enhancing Creative Writing via Blind Peer Review Feedback
- arxiv url: http://arxiv.org/abs/2601.08003v1
- Date: Mon, 12 Jan 2026 21:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.949999
- Title: LLM Review: Enhancing Creative Writing via Blind Peer Review Feedback
- Title(参考訳): LLMレビュー: Blind Peerレビューのフィードバックを通じてクリエイティブライティングを促進する
- Authors: Weiyue Li, Mingxiao Song, Zhenda Shen, Dachuan Zhao, Yunfan Long, Yi Li, Yongce Li, Ruyi Yang, Mengyu Wang,
- Abstract要約: 大きな言語モデル(LLM)は創造的な生成に苦しむことが多く、相互作用を通じて推論を改善するマルチエージェントフレームワークは、コンテンツ均質化を誘導することによって創造性をパラドックス的に阻害する。
我々は、Blind Peer Reviewを実装したピアレビューにインスパイアされたフレームワークであるLLM Reviewを紹介した。
LLM Reviewはマルチエージェントベースラインを一貫して上回り、我々のフレームワークでより小さなモデルではより大きな単一エージェントモデルを超え、相互作用構造がモデルスケールに取って代わる可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.19275389005935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often struggle with creative generation, and multi-agent frameworks that improve reasoning through interaction can paradoxically hinder creativity by inducing content homogenization. We introduce LLM Review, a peer-review-inspired framework implementing Blind Peer Review: agents exchange targeted feedback while revising independently, preserving divergent creative trajectories. To enable rigorous evaluation, we propose SciFi-100, a science fiction writing dataset with a unified framework combining LLM-as-a-judge scoring, human annotation, and rule-based novelty metrics. Experiments demonstrate that LLM Review consistently outperforms multi-agent baselines, and smaller models with our framework can surpass larger single-agent models, suggesting interaction structure may substitute for model scale.
- Abstract(参考訳): 大きな言語モデル(LLM)は創造的な生成に苦しむことが多く、相互作用を通じて推論を改善するマルチエージェントフレームワークは、コンテンツ均質化を誘導することによって創造性をパラドックス的に阻害する。
我々は、Blind Peer Reviewを実装したピアレビューにインスパイアされたフレームワークであるLLM Reviewを紹介した。
厳密な評価を実現するために,LLM-as-a-judgeスコア,ヒューマンアノテーション,ルールベースのノベルティメトリクスを組み合わせた統合フレームワークを用いたSF執筆データセットSciFi-100を提案する。
LLM Reviewはマルチエージェントベースラインを一貫して上回り、我々のフレームワークでより小さなモデルではより大きな単一エージェントモデルを超え、相互作用構造がモデルスケールに取って代わる可能性が示唆された。
関連論文リスト
- Exploring Design of Multi-Agent LLM Dialogues for Research Ideation [4.561804070932164]
大規模言語モデル(LLM)は、研究アイデア生成のような創造的なタスクをサポートするために、ますます使われている。
エージェントの役割の異なる構成、エージェントの数、対話深度を比較し、これらの要因が生成したアイデアの新規性と実現可能性にどのように影響するかを理解する。
論文 参考訳(メタデータ) (2025-07-11T06:53:46Z) - KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement [61.00950725408354]
大規模言語モデル(LLM)は、最近、テキストベースのアシスタントから、計画、推論、反復的な行動改善が可能な自律エージェントへと変化した。
本研究では,環境を探索するアクターモデルと,詳細な自然言語フィードバックを生成する批評家モデルからなる,新しい2人プレイヤフレームワークであるCGIを紹介する。
論文 参考訳(メタデータ) (2025-03-20T10:42:33Z) - A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play [43.55248812883912]
大規模言語モデル(LLM)は自然言語処理において例外的な習熟度を示してきたが、しばしばオープンエンドの質問に対する創造的で独創的な応答を生成できない。
LLM議論は,アイデア交換の活発化と多様化を促進する3段階の議論フレームワークである。
提案手法の有効性を, 代替利用テスト, 類似性テスト, インスタンステスト, 科学的創造性テストを用いて評価した。
論文 参考訳(メタデータ) (2024-05-10T10:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。