Fugu-MT 論文翻訳(概要): Inpainting-Guided Policy Optimization for Diffusion Large Language Models

論文の概要: Inpainting-Guided Policy Optimization for Diffusion Large Language Models

arxiv url: http://arxiv.org/abs/2509.10396v1
Date: Fri, 12 Sep 2025 16:44:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-15 16:03:08.166082
Title: Inpainting-Guided Policy Optimization for Diffusion Large Language Models
Title（参考訳）: 拡散大言語モデルに対する塗装誘導型ポリシー最適化
Authors: Siyan Zhao, Mengchen Liu, Jing Huang, Miao Liu, Chenyu Wang, Bo Liu, Yuandong Tian, Guan Pang, Sean Bell, Aditya Grover, Feiyu Chen,
Abstract要約: 自己回帰型LLMの代替として,マスケッド拡散大言語モデル (dLLM) が登場している。本稿では,dLLMに対するRLアルゴリズムの設計について検討する。
参考スコア（独自算出の注目度）: 67.97530437998117
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Masked diffusion large language models (dLLMs) are emerging as promising alternatives to autoregressive LLMs, offering competitive performance while supporting unique generation capabilities such as inpainting. We explore how inpainting can inform RL algorithm design for dLLMs. Aligning LLMs with reinforcement learning faces an exploration challenge: sparse reward signals and sample waste when models fail to discover correct solutions. While this inefficiency affects LLMs broadly, dLLMs offer a distinctive opportunity--their inpainting ability can guide exploration. We introduce IGPO (Inpainting Guided Policy Optimization), an RL framework that strategically inserts partial ground-truth reasoning traces during online sampling. Unlike providing full solutions, inpainting steers exploration toward promising trajectory spaces while preserving self-generated reasoning, bridging supervised fine-tuning and reinforcement learning. We apply IGPO to group-based optimization methods such as GRPO, where exploration failures cause zero advantages and gradients. IGPO restores meaningful gradients while improving sample efficiency. We also propose supervised fine-tuning on synthetically rewritten concise traces that better align with dLLM generation patterns. With additional techniques including entropy-based filtering, our training recipe yields substantial gains across three mathematical benchmarks--GSM8K, Math500, and AMC--achieving new state-of-the-art results for full-attention masked dLLMs.
Abstract（参考訳）: マスク付き拡散大言語モデル(dLLM)は、自動回帰型LLMの代替として期待されている。本稿では,dLLMに対するRLアルゴリズムの設計について検討する。モデルが正しい解を見つけられなかった場合、報酬信号のまばらさと無駄のサンプルという、強化学習によるLLMの調整は、探索の課題に直面します。この非効率性はLLMに広く影響を及ぼすが、dLLMは独特の機会を提供する。 IGPO (Inpainting Guided Policy Optimization) は,オンラインサンプリングにおいて,部分的地道推論トレースを戦略的に挿入するRLフレームワークである。完全なソリューションを提供するのとは違い、自己生成推論、ブリッジングによる微調整と強化学習を維持しながら、将来性のある軌道空間を探索する。 IGPOをGRPOのようなグループベースの最適化手法に適用する。 IGPOは、サンプル効率を改善しながら有意義な勾配を復元する。また,dLLM生成パターンによく適合する合成書き換えされた簡潔なトレースについて,教師付き微調整を提案する。エントロピーに基づくフィルタリングなどの追加手法により、トレーニングレシピはGSM8K、Math500、AMCの3つの数学ベンチマークで大幅に向上し、フルアテンションマスク付きdLLMの新たな最先端結果が得られる。

関連論文リスト

Empowering LLMs for Structure-Based Drug Design via Exploration-Augmented Latent Inference [5.052013621974765]
大言語モデル(LLM)は、表現力と推論能力を持っているが、構造に基づく薬物設計(SBDD)への応用は、タンパク質構造や予測不可能な分子生成の理解が不十分なため制限されている。本研究では,LLM生成過程を符号化,遅延空間探索,復号化ワークフローとして再解釈するフレームワークであるELILLM(Exploration-Augmented Latent Inference for LLMs)を提案する。 ELILLMは、デコードモジュールを使用して、よく知られた領域を処理し、化学的に有効で合成学的に合理的な分子を生成することで、モデル現在の知識を超えた設計問題の部分を明示的に探求する。
論文参考訳（メタデータ） (2026-01-20T08:10:48Z)
SALT: Step-level Advantage Assignment for Long-horizon Agents via Trajectory Graph [15.303565124424635]
大きな言語モデル(LLM)は、言語エージェントがシングルターンタスクでエキサイティングな機能を示す。複雑な多段階・長期のタスクへの応用は依然として困難である。本稿では,結果報酬のみから派生した,よりきめ細かい有利な代入を提供するフレームワークであるSALTを提案する。
論文参考訳（メタデータ） (2025-10-22T20:50:24Z)
Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Heterogeneous Group-Based Reinforcement Learning for LLM-based Multi-Agent Systems [25.882461853973897]
本稿では、相対報酬の利点を推定して政策更新を導くマルチエージェント不均一グループ政策最適化(MHGPO)を提案する。 MHGPOは、批判的ネットワークの必要性を排除し、安定性を向上し、計算オーバーヘッドを減らす。また,効率性と有効性を両立させる3つのグループロールアウトサンプリング戦略も導入する。
論文参考訳（メタデータ） (2025-06-03T10:17:19Z)
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。 d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-16T16:08:45Z)
EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文参考訳（メタデータ） (2024-05-24T03:53:57Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。