論文の概要: Studying the Korean Word-Chain Game with RLVR:Mitigating Reward Conflicts via Curriculum Learning
- arxiv url: http://arxiv.org/abs/2510.03394v1
- Date: Fri, 03 Oct 2025 18:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.020995
- Title: Studying the Korean Word-Chain Game with RLVR:Mitigating Reward Conflicts via Curriculum Learning
- Title(参考訳): RLVRを用いた韓国語対応ゲームの研究:カリキュラム学習によるリワード競合の緩和
- Authors: Donghwan Rho,
- Abstract要約: 検証可能な報酬を伴う強化学習(RLVR)は、より強力な推論能力を持つ大規模言語モデルを訓練するための有望なアプローチである。
ルール由来の報酬が自然に相反することを示し、カリキュラム学習方式がこれらの相反を緩和することを示す。
- 参考スコア(独自算出の注目度): 0.7252027234425333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) is a promising approach for training large language models (LLMs) with stronger reasoning abilities. It has also been applied to a variety of logic puzzles. In this work, we study the Korean word-chain game using RLVR. We show that rule-derived rewards can naturally conflict, and demonstrate through experiments that a curriculum-learning scheme mitigates these conflicts. Our findings motivate further studies of puzzle tasks in diverse languages.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習(RLVR)は、より強力な推論能力を持つ大規模言語モデル(LLM)をトレーニングするための有望なアプローチである。
様々な論理パズルにも応用されている。
本稿では,RLVRを用いた韓国語単語チェインゲームについて検討する。
ルール由来の報酬が自然に相反することを示し、カリキュラム学習方式がこれらの相反を緩和することを示す。
我々の発見は、様々な言語におけるパズルタスクのさらなる研究を動機付けている。
関連論文リスト
- The Reasoning Boundary Paradox: How Reinforcement Learning Constrains Language Models [31.773914661815393]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上のための重要な手法である。
最近の証拠は、拡張するのではなく、パラドックス的に推論境界を縮小する可能性があることを示唆している。
本稿では,RLVRの学習力学を解析することにより,RLVRの縮小問題を考察する。
論文 参考訳(メタデータ) (2025-10-02T17:17:27Z) - GRACE: A Language Model Framework for Explainable Inverse Reinforcement Learning [46.09328632452354]
本稿では,進化探索における大規模言語モデルを用いた解釈可能なコードベース報酬関数のリバースエンジニアリング手法であるGRACEを紹介する。
その結果得られる報酬関数は、検査と検証が可能な実行可能なコードである。
BabyAIとAndroidWorldのベンチマークでGRACEを実証的に検証し、高い精度の報酬を効率よく学習する。
論文 参考訳(メタデータ) (2025-10-02T16:31:39Z) - A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning [58.80217284841095]
マルチターン問題解決は、大規模な推論モデル(LRM)が彼らの推論を反映し、フィードバックから修正する上で非常に難しい。
既存の強化学習(RL)手法は、検証可能な報酬で1ターンのパラダイム上で大きな推論モデルを訓練する。
我々は,反復的問題解決において,最小限の単一ユーザフィードバックを利用する強化学習のためのUnary Feedback as Observation (UFO)を紹介した。
論文 参考訳(メタデータ) (2025-07-18T18:07:38Z) - Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning [89.93384726755106]
視覚言語強化学習(RL)は主に狭い領域に焦点を当てている。
ビデオゲームは本質的に、検証が容易なリッチなビジュアル要素とメカニクスを提供します。
ビデオゲームにおけるマルチモーダルかつ検証可能な報酬を完全に活用するために,Game-RLを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:47:44Z) - Playpen: An Environment for Exploring Learning Through Conversational Interaction [84.0413820245725]
本研究は,対話ゲームが学習のフィードバック信号の源として機能するかどうかを考察する。
本稿では,対話ゲームによるオフラインおよびオンライン学習環境であるPlaypenを紹介する。
SFTによる模倣学習は、目に見えないインスタンスのパフォーマンスを向上させるが、他のスキルに悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-11T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。