Fugu-MT 論文翻訳(概要): When Reasoning Supervision Hurts: TTCW-Based Long-Form Literary Review Generation

論文の概要: When Reasoning Supervision Hurts: TTCW-Based Long-Form Literary Review Generation

arxiv url: http://arxiv.org/abs/2605.20364v1
Date: Tue, 19 May 2026 18:16:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 19:19:56.315088
Title: When Reasoning Supervision Hurts: TTCW-Based Long-Form Literary Review Generation
Title（参考訳）: TTCWをベースとした長めのリテラリー・レビュー・ジェネレーション
Authors: Jinlong Liu, Mohammed Bahja, Mark Lee,
Abstract要約: 長期TTCWベースの文芸レビュー生成のための大規模なデータセットは存在しない。 Qwen3モデルを2つのスケール(4Bと8B)で微調整します。
参考スコア（独自算出の注目度）: 4.469246838045081
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic evaluation of long-form literary writing remains challenging, as generic LLM-as-Judge approaches may not fully capture creativity-related dimensions such as originality and flexibility. Although the Torrance Test of Creative Writing (TTCW) provides a structured creativity framework, and prior work has demonstrated reference-based TTCW evaluation at the pairwise level, no large-scale dataset exists for long-form TTCW-based literary review generation. We address this gap by constructing a dataset of 263,911 long-form stories, each annotated with scalar scores and meta-synthesised review comments across 14 TTCW-based dimensions. Using this dataset, we fine-tune Qwen3 models at two scales, 4B and 8B, under two conditions: with and without reasoning content. Results show that non-reasoning fine-tuning achieves stronger and more stable performance, with the best setting reaching an evaluation score of 0.6820. Further analysis shows that reasoning-supervised models are more prone to parse failures, often continuing with irrelevant or repetitive reasoning-style text rather than completing the required 14-metric review report. These results suggest that, for fixed-format rubric-based review generation, reasoning supervision is not straightforwardly beneficial, and precise metric-aligned scoring remains challenging even after task-specific fine-tuning.
Abstract（参考訳）: LLM-as-Judgeアプローチは、独創性や柔軟性といった創造性に関わる側面を完全に捉えていないため、長文の自動評価は依然として困難である。 Torrance Test of Creative Writing (TTCW) は構造化クリエイティビティの枠組みを提供しており、以前の研究はTTCWの評価をペアレベルで実証してきたが、TTCWに基づく長文レビュー生成のための大規模なデータセットは存在しない。このギャップに対処するため,263,911の長文のデータセットを構築し,14のTTCW次元にスカラースコアとメタ合成されたレビューコメントを付加した。このデータセットを用いて、2つのスケール(4Bと8B)でQwen3モデルを微調整する。その結果,非共振ファインチューニングはより強く,より安定な性能を示し,最適設定は0.6820に達した。さらなる分析によると、推論を教師するモデルは失敗を解析しやすく、しばしば必要な14度レビューレポートを完了するよりも、無関係または反復的な推論スタイルのテキストで継続する。これらの結果から, 定型的なルーリックに基づくレビュー生成においては, 推論の監督は直接的に有用ではなく, タスク固有の微調整後においても正確な計量整合のスコアリングが困難であることが示唆された。

関連論文リスト

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation [47.274230235946625]
多くのAI生成レビューは表面的で不十分な実行可能であり、著者は具体的で実装可能なガイダンスを残さず、この作業が抱えるギャップを動機付けている。本稿では,行動可能なレビューフィードバック生成を目的としたRbtActを提案し,既存のピアレビューを学習の中心に配置する。
論文参考訳（メタデータ） (2026-03-10T14:30:55Z)
DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文参考訳（メタデータ） (2026-01-07T03:07:52Z)
Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文参考訳（メタデータ） (2024-09-30T12:36:25Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation [20.675242617417677]
言語横断要約(CLCTS)は、文化的アクセシビリティと理解を向上する可能性を持つ、ほとんど探索されていない領域である。本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。
論文参考訳（メタデータ） (2023-06-22T14:31:18Z)
SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文参考訳（メタデータ） (2022-05-19T16:01:47Z)
TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文参考訳（メタデータ） (2022-04-11T10:14:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。