論文の概要: Dynamic Latent Routing
- arxiv url: http://arxiv.org/abs/2605.14323v1
- Date: Thu, 14 May 2026 03:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.605242
- Title: Dynamic Latent Routing
- Title(参考訳): ダイナミックラテントルーティング
- Authors: Fangyuan Yu, Xin Su, Amir Abdullah,
- Abstract要約: 我々は、ジェネラル・ディクストラ・サーチ(GDS)を導入し、中間的最適部分政治の時間的構成により、グローバルなゴール獲得ポリシーを復元できることを証明した。
GDSの根底にある「探索、選択、更新」原理に触発され、単一の訓練段階において動的探索を通して離散潜在コード、ルーティングポリシー、モデルパラメータを共同学習する言語モデル後学習法である動的潜時ルーティング(DLR)を提案する。
- 参考スコア(独自算出の注目度): 3.2461838619378702
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We investigate the temporal concatenation of sub-policies in Markov Decision Processes (MDP) with time-varying reward functions. We introduce General Dijkstra Search (GDS), and prove that globally optimal goal-reaching policies can be recovered through temporal composition of intermediate optimal sub-policies. Motivated by the "search, select, update" principle underlying GDS, we propose Dynamic Latent Routing (DLR), a language-model post-training method that jointly learns discrete latent codes, routing policies, and model parameters through dynamic search in a single training stage. In low-data fine-tuning settings, DLR matches or outperforms supervised fine-tuning across four datasets and six models, achieving a mean gain of +6.6 percentage points, while prior discrete-latent baselines consistently underperform SFT. Mechanistic analyses and targeted code ablations show that DLR learns structured routing behaviors with distinct causal roles.
- Abstract(参考訳): マルコフ決定過程(MDP)と時変報酬関数の時間的結合について検討する。
我々は、ジェネラル・ディクストラ・サーチ(GDS)を導入し、中間的最適部分政治の時間的構成により、グローバルなゴール獲得ポリシーを復元できることを証明した。
GDSの根底にある「探索、選択、更新」原理に触発され、単一の訓練段階において動的探索を通じて離散潜在コード、ルーティングポリシー、モデルパラメータを共同学習する言語モデル後学習法である動的潜時ルーティング(DLR)を提案する。
低データの微調整設定では、4つのデータセットと6つのモデルでDLRマッチまたはパフォーマンスが微調整を監督し、平均利得は+6.6ポイント、先行の離散遅延ベースラインは一貫してSFTより低い。
メカニスティック解析とターゲットコード短縮は、DLRが異なる因果的役割を持つ構造化されたルーティング行動を学ぶことを示す。
関連論文リスト
- HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving [51.268878540511054]
我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案する。
我々は,NAVSIMとHUGSIMの両方でHADが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-04-04T04:12:47Z) - LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning [20.48365890565577]
本稿では,各ステップにおけるトレーニングデータを平均応答長に基づいて動的に選択するメタRLVRアルゴリズムを提案する。
複数のベースモデルとデータセットにまたがるLSPOを評価し,学習効率を継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-10-01T20:57:22Z) - DAMR: Efficient and Adaptive Context-Aware Knowledge Graph Question Answering with LLM-Guided MCTS [28.828541350757714]
本稿では,知識グラフ質問応答(KGQA)のための動的適応MCTSベースの推論(DAMR)を提案する。
DAMRは、MCTS(Monte Carlo Tree Search)と適応経路評価を統合し、コンテキスト対応のKGQAを実現する。
複数のKGQAベンチマークの実験では、DAMRはSOTA法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-01T15:38:21Z) - Reinforce LLM Reasoning through Multi-Agent Reflection [8.088795955922656]
DPSDPは,自己生成データを直接選好学習することで,アクタクリティカルなLLMシステムを反復的に洗練する強化学習アルゴリズムである。
理論的には、DPSDPはトレーニング分布内の任意のポリシーのパフォーマンスと一致させることができる。
例えば、ベンチマークMATH 500では、5つの改良ステップ以上の多数投票がミニストラーモデルで第1回投票の精度を58.2%から63.2%に向上させた。
論文 参考訳(メタデータ) (2025-06-10T02:43:47Z) - Prior-Guided Diffusion Planning for Offline Reinforcement Learning [5.819784482811376]
Prior Guidance(PG)は、行動閉ざされた拡散モデルに先立って標準ガウスを置き換えた新しいサンプリングフレームワークである。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2025-05-16T05:39:02Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。