論文の概要: UniCreative: Unifying Long-form Logic and Short-form Sparkle via Reference-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.05517v1
- Date: Tue, 07 Apr 2026 07:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.678478
- Title: UniCreative: Unifying Long-form Logic and Short-form Sparkle via Reference-Free Reinforcement Learning
- Title(参考訳): UniCreative: 参照なし強化学習による長文論理と短文スパークルの統合
- Authors: Xiaolong Wei, Zerun Zhu, Simin Niu, Xingyu Zhang, Peiying Yu, Changxuan Xiao, Yuchen Li, Jicheng Yang, Zhejun Zhao, Chong Meng, Long Xia, Daiting Shi,
- Abstract要約: 統一された参照フリー強化学習フレームワークである textbfUniCreative を提案する。
まず、クエリ固有の基準を動的に合成し、きめ細かい選好判断を提供する適応制約対応報酬モデル、textbfAC-GenRMを紹介する。
提案手法は,コンテンツ品質と構造パラダイムの両面において,モデルと人間の嗜好を協調する政策最適化アルゴリズムである textbfACPO を提案する。
- 参考スコア(独自算出の注目度): 14.788245475904924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental challenge in creative writing lies in reconciling the inherent tension between maintaining global coherence in long-form narratives and preserving local expressiveness in short-form texts. While long-context generation necessitates explicit macroscopic planning, short-form creativity often demands spontaneous, constraint-free expression. Existing alignment paradigms, however, typically employ static reward signals and rely heavily on high-quality supervised data, which is costly and difficult to scale. To address this, we propose \textbf{UniCreative}, a unified reference-free reinforcement learning framework. We first introduce \textbf{AC-GenRM}, an adaptive constraint-aware reward model that dynamically synthesizes query-specific criteria to provide fine-grained preference judgments. Leveraging these signals, we propose \textbf{ACPO}, a policy optimization algorithm that aligns models with human preferences across both content quality and structural paradigms without supervised fine-tuning and ground-truth references. Empirical results demonstrate that AC-GenRM aligns closely with expert evaluations, while ACPO significantly enhances performance across diverse writing tasks. Crucially, our analysis reveals an emergent meta-cognitive ability: the model learns to autonomously differentiate between tasks requiring rigorous planning and those favoring direct generation, validating the effectiveness of our direct alignment approach.
- Abstract(参考訳): クリエイティブ・ライティングにおける根本的な課題は、長文の物語におけるグローバル・コヒーレンスを維持することと短文の局所的な表現性を維持することの間の本質的にの緊張を和らげることである。
長文生成は明示的なマクロ計画を必要とするが、短い形式の創造性は、しばしば自然に制約のない表現を必要とする。
しかし、既存のアライメントパラダイムは、通常静的な報酬信号を使用し、高品質な教師付きデータに大きく依存する。
そこで本研究では,参照レス強化学習フレームワークであるtextbf{UniCreative}を提案する。
まず、クエリ固有の基準を動的に合成し、きめ細かい選好判断を提供する適応制約対応報酬モデルである「textbf{AC-GenRM}」を紹介する。
これらの信号を活用することで、コンテンツ品質と構造パラダイムの双方にわたってモデルと人間の嗜好を協調するポリシー最適化アルゴリズムである「textbf{ACPO}」を提案する。
実験結果から,AC-GenRMは専門家による評価と密接に一致し,ACPOは多種多様な記述タスクにおける性能を著しく向上することが示された。
モデルは厳格な計画を必要とするタスクと直接生成を好むタスクを自律的に区別し、直接的なアライメントアプローチの有効性を検証する。
関連論文リスト
- PlotTwist: A Creative Plot Generation Framework with Small Language Models [2.2904707352645386]
PlotTwistは、$leq$5Bのアクティブパラメータを持つSmall Language Models(SLM)が、高品質で前提条件付きプロットを生成することができる構造化フレームワークである。
提案手法は,(1)新規の肯定的・否定的評価モデルを用いて学習した,5つの主観的品質次元(NQD)にまたがる構造的物語の提供戦略,(2)信頼度の高い選好対に対する直接最適化によって整列した実験的プロットジェネレータ,(3)偏見のないポストホック評価に対する人間の批判的判断をエミュレートするエージェント評価モジュールの3つの特殊な構成要素に分解する。
論文 参考訳(メタデータ) (2026-03-17T11:45:04Z) - Give Users the Wheel: Towards Promptable Recommendation Paradigm [21.39017335979666]
Decoupled Promptable Sequential Recommendation (DPR)は、従来のシーケンシャルバックボーンにPromptable Recommendationをサポートするためのモデルに依存しないフレームワークである。
DPRは、潜在ユーザ表現を検索空間内で直接変調する。
プロンプト誘導タスクにおいて、最先端のベースラインを著しく上回る。
論文 参考訳(メタデータ) (2026-02-21T18:41:28Z) - Unified Personalized Reward Model for Vision Generation [27.496220369122494]
視覚生成のためのパーソナライズされた報酬モデルであるUnifiedReward-Flexを提案する。
我々はまず,高度閉ソースVLMからブートストラップSFTまで,構造化された高品質な推論トレースを蒸留した。
次に、慎重にキュレートされた選好ペア上で直接選好最適化(DPO)を行い、推論の忠実度と識別的アライメントをさらに強化する。
論文 参考訳(メタデータ) (2026-02-02T17:44:21Z) - KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。
KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-10T17:45:42Z) - RubricRL: Simple Generalizable Rewards for Text-to-Image Generation [48.51955133988087]
強化学習(Reinforcement Learning, RL)は、テキストから画像への生成モデルと人間の嗜好を整合させる、有望なアプローチとして最近登場した。
既存の方法は、固定重量の複合指標(例えば、CLIP、OCR、リアリズムスコア)や、人間の嗜好モデルから抽出した単一のスカラー報酬に頼っていることが多い。
本稿では,ルーブリック型報酬設計のための簡易かつ汎用的なフレームワークRLを提案する。
論文 参考訳(メタデータ) (2025-11-25T18:59:55Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - CogDual: Enhancing Dual Cognition of LLMs via Reinforcement Learning with Implicit Rule-Based Rewards [53.36917093757101]
ロールプレイング言語エージェント (RPLA) は,Large Language Models (LLM) に対する重要な適用方向として登場した。
テキスト認識対応推論パラダイムを採用した新しいRPLAであるtextbfCogDualを紹介する。
外部状況認識と内部自己認識を共同でモデル化することにより、CagDualは文字整合性と文脈整合性を改善した応答を生成する。
論文 参考訳(メタデータ) (2025-07-23T02:26:33Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Revisiting GANs by Best-Response Constraint: Perspective, Methodology,
and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。
モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文 参考訳(メタデータ) (2022-05-20T12:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。