論文の概要: Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution
- arxiv url: http://arxiv.org/abs/2604.03472v1
- Date: Fri, 03 Apr 2026 21:40:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.596368
- Title: Vocabulary Dropout for Curriculum Diversity in LLM Co-Evolution
- Title(参考訳): LLM共進化におけるカリキュラム多様性のための語彙ドロップアウト
- Authors: Jacob Dineen, Aswin RRV, Zhikun Xu, Ben Zhou,
- Abstract要約: 政策学習とカリキュラム生成の両方において,提案者の出力ロジットに対してランダムなマスクである語彙ドロップアウトを導入する。
語彙のドロップアウトは、トレーニングを通して語彙的、意味的、機能的メトリクスにまたがって、提案者の多様性を持続させる。
本研究は,ゲームルールが古典的自己プレイで果たす構造的役割に類似した,明示的な行動空間制約が,言語における生産的共進化の維持に役立つことを示唆する。
- 参考スコア(独自算出の注目度): 9.490678392723085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Co-evolutionary self-play, where one language model generates problems and another solves them, promises autonomous curriculum learning without human supervision. In practice, the proposer quickly converges to a narrow distribution of problems that satisfy the reward function. This diversity collapse renders the curriculum uninformative for the solver, stalling the co-evolutionary loop. We introduce vocabulary dropout, a random mask applied to the proposer's output logits during both policy training and curriculum generation, as a lightweight mechanism to sustain diversity. The mask is hard and non-stationary, preventing the proposer from locking into fixed token sequences. Training Qwen3-4B and Qwen3-8B on mathematical reasoning via R-Zero, we find that vocabulary dropout sustains proposer diversity across lexical, semantic, and functional metrics throughout training, and yields solver improvements averaging +4.4 points at 8B, with the largest gains on competition-level benchmarks. Our findings suggest that explicit action-space constraints, analogous to the structural role that game rules play in classical self-play, can help sustain productive co-evolution in language. Vocabulary dropout is one simple instantiation of this principle.
- Abstract(参考訳): ある言語モデルが問題を発生し、別の言語モデルが解決する、共進化的なセルフプレイは、人間の監督なしに自律的なカリキュラム学習を約束する。
実際には、提案者はすぐに、報酬関数を満たす問題の狭い分布に収束する。
この多様性の崩壊は、このカリキュラムを解法に非形式的にし、共進化ループを停止させる。
本稿では,多様性を維持するための軽量なメカニズムとして,政策トレーニングとカリキュラム生成の両方において,提案者の出力ロジットにランダムなマスクである語彙ドロップアウトを導入する。
マスクは固く非定常的であり、プロジェクタが固定されたトークンシーケンスにロックされるのを防ぐ。
R-Zeroによる数学的推論に関するQwen3-4BとQwen3-8Bのトレーニングでは,語彙のドロップアウトが語彙的,意味的,機能的指標間の多様性を維持できることがわかった。
本研究は,ゲームルールが古典的自己プレイで果たす構造的役割に類似した,明示的な行動空間制約が,言語における生産的共進化の維持に役立つことを示唆する。
語彙のドロップアウトは、この原理の単純なインスタンス化である。
関連論文リスト
- R-Diverse: Mitigating Diversity Illusion in Self-Play LLM Training [65.13759782915164]
反復的なチャレンジャーブートストラップループによる自己再生LDM推論。
R-Diverseは、より多くのイテレーション以上のゲインを持続し、常に以前のセルフプレイメソッドより優れています。
論文 参考訳(メタデータ) (2026-02-13T17:07:42Z) - AdaFuse: Adaptive Ensemble Decoding with Test-Time Scaling for LLMs [46.52320938421707]
推論時のアンサンブルは、大規模な言語モデル機能を再訓練せずに組み合わせる実用的な方法を提供する。
生成時に意味的に適切な融合単位を動的に選択する適応型アンサンブルデコーディングフレームワークであるAdaFuseを提案する。
AdaFuseは一貫して強力なアンサンブルベースラインを上回り、6.88%の平均的な相対的な改善を達成している。
論文 参考訳(メタデータ) (2026-01-09T18:58:22Z) - Plug, Play, and Fuse: Zero-Shot Joint Decoding via Word-Level Re-ranking Across Diverse Vocabularies [12.843274390224853]
マルチモーダル翻訳のような現実世界のタスクは、翻訳と画像処理の両方を扱うなど、これらの強みの組み合わせを必要とすることが多い。
新たなゼロショットアンサンブル戦略を提案し,デコードフェーズにおいて,追加のトレーニングを必要とせずに,異なるモデルの統合を可能にする。
提案手法では,単語レベルでのスコアを組み合わせ,単語がいつ完了するかをマルチモーダルで予測することで,復号中にビームを再ランクする。
論文 参考訳(メタデータ) (2024-08-21T04:20:55Z) - Flow of Reasoning: Training LLMs for Divergent Reasoning with Minimal Examples [12.48027669682156]
Flow of Reasoning (FoR)は、最小限のデータで多様性を向上させることを目的としている。
FoR は DAG 構造推論グラフ上のマルコフフローとして多段階 LLM 推論を定式化する。
実験によると、限られたトレーニング例で、FoRは多様な創造的で高品質なソリューションの発見を可能にする。
論文 参考訳(メタデータ) (2024-06-09T07:06:58Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - PCL: Peer-Contrastive Learning with Diverse Augmentations for
Unsupervised Sentence Embeddings [69.87899694963251]
本稿では,多彩な拡張を伴う新しいピアコントラスト学習(PCL)を提案する。
PCLは、教師なし文の埋め込みのために、グループレベルで様々な対照的な正と負を構成する。
PCLはピア陽性のコントラストとピアネットワークの協調が可能である。
論文 参考訳(メタデータ) (2022-01-28T13:02:41Z) - Automatic Generation of Word Problems for Academic Education via Natural
Language Processing (NLP) [0.0]
この論文は、多様で文脈に富んだ単語問題を生成するアプローチを提案する。
提案手法は数学統計学において有効な単語問題を生成するのに有効であることが証明されている。
論文 参考訳(メタデータ) (2021-09-27T15:36:19Z) - Decrypting Cryptic Crosswords: Semantically Complex Wordplay Puzzles as a Target for NLP [28.479149974110463]
クリプティッククロスワード(英: Cryptic crosswords)は、NLPシステムの進歩に向けた有望なターゲットである。
我々は、NLPシステムの新しいベンチマークとして、秘密の手がかりのデータセットを提示する。
また、課題データ分割を導入し、サブワード・トークン化モデルのメタ言語的能力を検証し、手掛かりのワードプレイ部分を摂動することでモデル体系性を検討する。
論文 参考訳(メタデータ) (2021-04-17T18:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。