論文の概要: COS(M+O)S: Curiosity and RL-Enhanced MCTS for Exploring Story Space via Language Models
- arxiv url: http://arxiv.org/abs/2501.17104v1
- Date: Tue, 28 Jan 2025 17:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:53.551700
- Title: COS(M+O)S: Curiosity and RL-Enhanced MCTS for Exploring Story Space via Language Models
- Title(参考訳): COS(M+O)S:言語モデルによる物語空間探索のための好奇心とRL強化MCTS
- Authors: Tobias Materzok,
- Abstract要約: 提案するCOS(M+O)Sは,オープンエンドプロット開発のためのシステム2にインスパイアされたフレームワークである。
ストーリー拡張の可能性の広大な空間を探求し、短いストーリータスクにおいて70Bモデルのプロット品質にアプローチする。
67%-77%がCOS(M+O)Sの低い値よりも高い値を示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present COS(M+O)S, a System 2-inspired framework for open-ended plot development that systematically explores the vast space of possible story expansions, enabling a 3B-parameter language model to approach the plot quality of a 70B model on select short-story tasks. The method accomplishes this by combining Monte Carlo Tree Search (MCTS), guided by a step-level value model that rewards moderate surprisal (curiosity) while penalizing incoherence, and Odds Ratio Preference Optimization (ORPO) to fine-tune the policy on high-value plot expansions. This iterative reinforcement learning loop systematically explores multiple candidate plot branches, backpropagates quality signals, and adapts the policy for faster convergence, notably shifting the policy from puzzle-based Chain-of-Thought to more character-driven storytelling. In small-scale tests with short-story prompts, 67%-77% of participants favored COS(M+O)S's highest-rated expansions over lower-rated ones, suggesting that our learned value function aligns. GPT-4o ratings further show that COS(M+O)S surpasses naive single-pass decoding from Llama 3.2 3B by 0.59 SD, coming within 0.06 SD of Llama 3.1 70B (no significant difference, p=0.93). Pairwise comparisons with o1 place COS(M+O)S 1.5 SD above the 3B baseline and find no statistically significant gap from 70B. Nevertheless, absolute story quality remains modest, constrained by the small model's capacity and limited training data.
- Abstract(参考訳): COS(M+O)S(System 2-inspireed framework for open-ended plot development, システム2-インスパイアされたオープンエンドプロット開発のためのフレームワーク)を提案する。
この手法はモンテカルロ木探索(MCTS)とオッドス比推定最適化(Odds Ratio Preference Optimization、ORPO)を組み合わせて高価値プロット展開のポリシーを微調整する。
この反復強化学習ループは、複数のプロット分岐を体系的に探索し、品質信号のバックプロパゲーションを行い、より早く収束するためのポリシーを適用する。
67%-77%の参加者がCOS(M+O)Sの下位値よりもCOS(M+O)Sの最大値拡張を好んだ。
GPT-4o の評価は、COS(M+O)S が Llama 3.2 3B から 0.59 SD の範囲で、Llama 3.1 70B の 0.06 SD (有意差なし、p=0.93) の範囲内であることを示している。
O1位COS(M+O)S 1.5 SDを3Bベースラインより上回って比較したところ,70Bと統計的に有意な差は認められなかった。
それでも、絶対的なストーリーの品質は控えめであり、小さなモデルのキャパシティと限られたトレーニングデータによって制約される。
関連論文リスト
- S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Near, far: Patch-ordering enhances vision foundation models' scene understanding [35.768260232640756]
NeCo: Patch Neighbor Consistencyは、学生と教師のモデル全体で、パッチレベルの隣り合う一貫性を強制します。
学習信号のブートストラップには,DINOv2-Registerなどの事前訓練された表現の上に適用した微分可能なソートを利用する。
この厳密な事前トレーニングは、単一のGPUで19時間しか必要とせず、さまざまなモデルやデータセットでパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-08-20T17:58:59Z) - On-the-fly Point Feature Representation for Point Clouds Analysis [7.074010861305738]
そこで我々は,曲線特徴生成モジュールを通じて,豊富な幾何学的情報を明示的にキャプチャするOn-the-fly Point Feature Representation (OPFR)を提案する。
また、三角形集合に基づく局所座標系を近似した局所参照コンストラクタモジュールを導入する。
OPFRは推論に1.56ms(バニラPFHより65倍速い)と0.012M以上のパラメータしか必要とせず、様々なバックボーン用の汎用的なプラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T04:57:06Z) - DELLA-Merging: Reducing Interference in Model Merging through Magnitude-Based Sampling [24.270321913746233]
そこで本研究では,mAgnitude(DELLA-Merging)とSampLingを併用した新しいモデルマージ手法であるDropとrEscaLeを提案する。
MAGPRUNEはまず、これらのパラメータを等級順にランク付けし、より低い等級のパラメータに高い降下確率(p)を割り当てる。
論文 参考訳(メタデータ) (2024-06-17T15:02:45Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Searching Collaborative Agents for Multi-plane Localization in 3D
Ultrasound [59.97366727654676]
3D超音波(US)はその豊富な診断情報、可搬性、低コストのために広く用いられている。
米国における標準平面(SP)のローカライゼーションは,効率の向上とユーザ依存の低減だけでなく,米国における3D解釈の促進にも寄与する。
本稿では,複数の子宮SPを同時に3D USにローカライズするマルチエージェント強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-30T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。