論文の概要: LLM Review: Enhancing Creative Writing via Blind Peer Review Feedback
- arxiv url: http://arxiv.org/abs/2601.08003v1
- Date: Mon, 12 Jan 2026 21:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.949999
- Title: LLM Review: Enhancing Creative Writing via Blind Peer Review Feedback
- Title(参考訳): LLMレビュー: Blind Peerレビューのフィードバックを通じてクリエイティブライティングを促進する
- Authors: Weiyue Li, Mingxiao Song, Zhenda Shen, Dachuan Zhao, Yunfan Long, Yi Li, Yongce Li, Ruyi Yang, Mengyu Wang,
- Abstract要約: 大きな言語モデル(LLM)は創造的な生成に苦しむことが多く、相互作用を通じて推論を改善するマルチエージェントフレームワークは、コンテンツ均質化を誘導することによって創造性をパラドックス的に阻害する。
我々は、Blind Peer Reviewを実装したピアレビューにインスパイアされたフレームワークであるLLM Reviewを紹介した。
LLM Reviewはマルチエージェントベースラインを一貫して上回り、我々のフレームワークでより小さなモデルではより大きな単一エージェントモデルを超え、相互作用構造がモデルスケールに取って代わる可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.19275389005935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often struggle with creative generation, and multi-agent frameworks that improve reasoning through interaction can paradoxically hinder creativity by inducing content homogenization. We introduce LLM Review, a peer-review-inspired framework implementing Blind Peer Review: agents exchange targeted feedback while revising independently, preserving divergent creative trajectories. To enable rigorous evaluation, we propose SciFi-100, a science fiction writing dataset with a unified framework combining LLM-as-a-judge scoring, human annotation, and rule-based novelty metrics. Experiments demonstrate that LLM Review consistently outperforms multi-agent baselines, and smaller models with our framework can surpass larger single-agent models, suggesting interaction structure may substitute for model scale.
- Abstract(参考訳): 大きな言語モデル(LLM)は創造的な生成に苦しむことが多く、相互作用を通じて推論を改善するマルチエージェントフレームワークは、コンテンツ均質化を誘導することによって創造性をパラドックス的に阻害する。
我々は、Blind Peer Reviewを実装したピアレビューにインスパイアされたフレームワークであるLLM Reviewを紹介した。
厳密な評価を実現するために,LLM-as-a-judgeスコア,ヒューマンアノテーション,ルールベースのノベルティメトリクスを組み合わせた統合フレームワークを用いたSF執筆データセットSciFi-100を提案する。
LLM Reviewはマルチエージェントベースラインを一貫して上回り、我々のフレームワークでより小さなモデルではより大きな単一エージェントモデルを超え、相互作用構造がモデルスケールに取って代わる可能性が示唆された。
関連論文リスト
- ART: Adaptive Response Tuning Framework -- A Multi-Agent Tournament-Based Approach to LLM Response Optimization [0.0]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示した。
本稿では,トーナメント型ELOランキングとマルチエージェント推論を用いたART(Adaptive Response Tuning)を提案する。
論文 参考訳(メタデータ) (2025-11-29T20:16:11Z) - Unleashing Diverse Thinking Modes in LLMs through Multi-Agent Collaboration [5.19759149737193]
本稿では,複数思考モード(DiMo)のための多エージェント協調フレームワークを提案する。
4つの特殊言語モデル(LLM)間の構造化された議論をシミュレートすることで、性能と解釈可能性の両方を向上させる。
6つのベンチマークと統一されたオープンソース設定の下では、DiMoは広く使用されているシングルモデルと議論ベースラインよりも精度を向上し、数学で最大の利益を上げている。
論文 参考訳(メタデータ) (2025-10-18T21:22:36Z) - Exploring Design of Multi-Agent LLM Dialogues for Research Ideation [4.561804070932164]
大規模言語モデル(LLM)は、研究アイデア生成のような創造的なタスクをサポートするために、ますます使われている。
エージェントの役割の異なる構成、エージェントの数、対話深度を比較し、これらの要因が生成したアイデアの新規性と実現可能性にどのように影響するかを理解する。
論文 参考訳(メタデータ) (2025-07-11T06:53:46Z) - KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement [61.00950725408354]
大規模言語モデル(LLM)は、最近、テキストベースのアシスタントから、計画、推論、反復的な行動改善が可能な自律エージェントへと変化した。
本研究では,環境を探索するアクターモデルと,詳細な自然言語フィードバックを生成する批評家モデルからなる,新しい2人プレイヤフレームワークであるCGIを紹介する。
論文 参考訳(メタデータ) (2025-03-20T10:42:33Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。
我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。
複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文 参考訳(メタデータ) (2024-06-09T08:24:17Z) - LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play [43.55248812883912]
大規模言語モデル(LLM)は自然言語処理において例外的な習熟度を示してきたが、しばしばオープンエンドの質問に対する創造的で独創的な応答を生成できない。
LLM議論は,アイデア交換の活発化と多様化を促進する3段階の議論フレームワークである。
提案手法の有効性を, 代替利用テスト, 類似性テスト, インスタンステスト, 科学的創造性テストを用いて評価した。
論文 参考訳(メタデータ) (2024-05-10T10:19:14Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。