論文の概要: Block-R1: Rethinking the Role of Block Size in Multi-domain Reinforcement Learning for Diffusion Large Language Models
- arxiv url: http://arxiv.org/abs/2605.11726v2
- Date: Wed, 13 May 2026 15:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.893113
- Title: Block-R1: Rethinking the Role of Block Size in Multi-domain Reinforcement Learning for Diffusion Large Language Models
- Title(参考訳): Block-R1:拡散大言語モデルのためのマルチドメイン強化学習におけるブロックサイズの役割を再考する
- Authors: Yan Jiang, Ruihong Qiu, Zi Huang,
- Abstract要約: ブロックサイズはdLLMにおいて重要な要素となっている。
本稿では,マルチドメインシナリオにおけるDLLM RLポストトレーニングにおけるドメインコンフリクトの観点からのブロックサイズについて検討する。
- 参考スコア(独自算出の注目度): 41.859993506122194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, reinforcement learning (RL) has been widely applied during post-training for diffusion large language models (dLLMs) to enhance reasoning with block-wise semi-autoregressive generation. Block size has therefore become a vital factor in dLLMs, since it determines the parallel decoding granularity and affects the rollout trajectories during RL optimisation, e.g., GRPO. Instead of investigating the effect of block size during inference on individual domains, this paper studies block size from a domain conflict perspective for dLLM RL post-training in multi-domain scenarios. The main contributions are: (1) a formulation of domain block size conflict in multi-domain RL for dLLMs, which will largely affect the post-training effectiveness for rollout-based RL methods; (2) a novel dataset, Block-R1-41K is constructed with a best-improved training block size for each sample, which also induces a Block Size Conflict Score to quantitatively measure the domain conflict; (3) a new benchmark, Block-R1, for flexible RL post-training for dLLMs in both single and cross domain; and (4) a simple yet powerful cross-domain post-training method with sample-level best-improved training block sizes. Extensive experiments on 13 distinct datasets, 7 latest RL algorithms and diverse dLLM backbones are comprehensively covered in Block-R1. The benchmark is open-sourced at https://github.com/YanJiangJerry/Block-R1 with the dataset released at https://huggingface.co/datasets/YanJiangJerry/Block-R1-41K.
- Abstract(参考訳): 近年,拡散大言語モデル (dLLMs) のポストトレーニング中に強化学習 (RL) が広く適用され,ブロックワイド半自己回帰生成による推論が向上している。
したがってブロックサイズは、並列デコード粒度を決定し、RL最適化中のロールアウト軌跡、例えばGRPOに影響を与えるため、dLLMsにおいて重要な要素となっている。
本稿では,各ドメインに対する推論におけるブロックサイズの影響を調べる代わりに,マルチドメインシナリオにおけるDLLM RLポストトレーニングにおけるドメイン競合の観点からブロックサイズを考察する。
主な貢献は、(1)dLLMのマルチドメインRLにおけるドメインブロックサイズ競合の定式化、(2)ロールアウトベースのRLメソッドのポストトレーニング効果に大きく影響する、(2)新しいデータセットであるBlock-R1-41Kは、各サンプルに対して最も改善されたトレーニングブロックサイズで構築され、ドメインの衝突を定量的に測定するBlock Size Conflict Scoreを誘導する、(3)シングルドメインとクロスドメインの両方でdLLMの柔軟なRLポストトレーニングのためのBlock-R1、(4)サンプルレベルで最も改善されたトレーニングブロックサイズを持つ単純なクロスドメインポストトレーニング方法である。
13の異なるデータセット、最新のRLアルゴリズム7、多様なdLLMバックボーンに関する大規模な実験は、Block-R1で包括的にカバーされている。
ベンチマークはhttps://github.com/YanJiangJerry/Block-R1でオープンソース化され、データセットはhttps://huggingface.co/datasets/YanJiangJerry/Block-R1-41Kでリリースされた。
関連論文リスト
- Break the Block: Dynamic-size Reasoning Blocks for Diffusion Large Language Models via Monotonic Entropy Descent with Reinforcement Learning [41.859993506122194]
固定サイズのブロック世代は、効果的で一貫性のある推論にとって重要なボトルネックである。
本稿では,モノトニック・エントロピー・ディフレキティブ(モノトニック・エントロピー・ディフレキティブ)を用いて動的サイズ推論ブロックを学習する,dLLMのための新しい学習後フレームワークb1を提案する。
論文 参考訳(メタデータ) (2026-05-04T06:17:49Z) - MI-PRUN: Optimize Large Language Model Pruning via Mutual Information [73.6518842907835]
大規模言語モデルのための相互情報に基づくプルーニング手法MI-PRUNを提案する。
隠れ状態の遷移を評価することによって、相互情報を利用して冗長なブロックを識別する。
また,ブロックの組み合わせを反復的に更新し,グローバルな最適解を実現するFast-Block-Selectアルゴリズムを開発した。
論文 参考訳(メタデータ) (2026-01-12T05:06:01Z) - From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs [58.640039233470766]
原理的AR-to-block-diffusion適応は,DLMをスクラッチからトレーニングする上で,有効かつ効率的な代替手段であることを示す。
NBDiff-7B(BaseとInstruct)は、長文のモデリングと推論機能を継承し、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-07T10:28:21Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Towards Universal Dense Blocking for Entity Resolution [49.06313308481536]
ドメインに依存しない、容易に観測可能なコーパス上で事前学習を行う密集型ブロッカであるUniBlockerを提案する。
ドメインに依存しない事前トレーニングを行うことで、UniBlockerはドメイン固有の微調整を必要とせずに、さまざまなダウンストリームブロッキングシナリオに適応できる。
提案したUniBlockerは、ドメイン固有の学習を一切行わず、従来の自己および教師なしの密なブロッキング手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-23T08:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。