論文の概要: EvolvR: Self-Evolving Pairwise Reasoning for Story Evaluation to Enhance Generation
- arxiv url: http://arxiv.org/abs/2508.06046v1
- Date: Fri, 08 Aug 2025 06:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.098675
- Title: EvolvR: Self-Evolving Pairwise Reasoning for Story Evaluation to Enhance Generation
- Title(参考訳): EvolvR: ストーリー評価のための自己進化的ペアワイズ推論
- Authors: Xinda Wang, Zhengxu Hou, Yangshijie Zhang, Bingren Yan, Zhibo Yang, Xingsheng Zhang, Luxi Xing, Qiang Zhou, Chen Zhang,
- Abstract要約: 本稿では,ストーリー評価のための自己進化的ペアワイズ推論(EvolvR)フレームワークを提案する。
フレームワークはまず、マルチペルソナ戦略を通じてスコア整合型Chain-of-Thought(CoT)データを自己合成する。
精巧なデータに基づいて訓練された評価器を報奨モデルとして展開し、ストーリー生成タスクを誘導する。
- 参考スコア(独自算出の注目度): 17.37840331449749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the effectiveness of Large Language Models (LLMs) as judges (LLM-as-a-judge) has been validated, their performance remains limited in open-ended tasks, particularly in story evaluation. Accurate story evaluation is crucial not only for assisting human quality judgment but also for providing key signals to guide story generation. However, existing methods face a dilemma: prompt engineering for closed-source models suffers from poor adaptability, while fine-tuning approaches for open-source models lack the rigorous reasoning capabilities essential for story evaluation. To address this, we propose the Self-Evolving Pairwise Reasoning (EvolvR) framework. Grounded in pairwise comparison, the framework first self-synthesizes score-aligned Chain-of-Thought (CoT) data via a multi-persona strategy. To ensure data quality, these raw CoTs undergo a self-filtering process, utilizing multi-agents to guarantee their logical rigor and robustness. Finally, the evaluator trained on the refined data is deployed as a reward model to guide the story generation task. Experimental results demonstrate that our framework achieves state-of-the-art (SOTA) performance on three evaluation benchmarks including StoryER, HANNA and OpenMEVA. Furthermore, when served as a reward model, it significantly enhances the quality of generated stories, thereby fully validating the superiority of our self-evolving approach.
- Abstract(参考訳): 審査員 (LLM-as-a-judge) としてのLarge Language Models (LLMs) の有効性は検証されているが、その性能はオープンなタスク、特にストーリー評価において制限されている。
正確なストーリー評価は、人間の品質判断を支援するだけでなく、ストーリー生成を導くための重要な信号を提供するためにも重要である。
しかし、既存の手法はジレンマに直面している: クローズドソースモデルの迅速なエンジニアリングは、適応性の低下に悩まされる一方、オープンソースモデルの微調整アプローチには、ストーリー評価に必要な厳密な推論能力が欠如している。
そこで我々は,自己進化的ペアワイズ推論(EvolvR)フレームワークを提案する。
相互比較を基礎として、このフレームワークはまず、マルチペルソナ戦略を通じてスコアアラインなChain-of-Thought(CoT)データを自己合成する。
データ品質を保証するため、これらの生のCoTは、論理的厳密さと堅牢性を保証するためにマルチエージェントを活用する自己フィルタリングプロセスを実行する。
最後に、洗練されたデータに基づいて訓練された評価器を報酬モデルとして配置し、ストーリー生成タスクを誘導する。
実験により,本フレームワークはStoryER,HANNA,OpenMEVAの3つの評価ベンチマークにおいて,最先端(SOTA)性能を実現することが示された。
さらに、報酬モデルとして機能すると、生成されたストーリーの品質が著しく向上し、自己進化的アプローチの優位性を完全に検証する。
関連論文リスト
- FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation [11.238548725286122]
我々はZeroCFを紹介した。ZeroCFは、特徴帰属法から派生した重要な単語を活用して、反実例を生成するための忠実なアプローチである。
第2に,新たなフレームワークであるFitCFを提案する。このフレームワークは,上述の反事実をラベルフリップ検証によって検証し,実演として挿入する。
We showed the effect of LIME and Integrated Gradients as backbone attribution method for FitCF and found the number of demonstrations have be largest effect on performance。
論文 参考訳(メタデータ) (2025-01-01T09:00:10Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
特に,本手法は,評価を統一グラフに集約し,デノナイジングプロセスを適用する2つの主要な段階から構成される。
我々は,本枠組みの理論的保証を行い,真理優先構造を回復する上での有効性を示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。