論文の概要: Diffusion-MPC in Discrete Domains: Feasibility Constraints, Horizon Effects, and Critic Alignment: Case study with Tetris
- arxiv url: http://arxiv.org/abs/2603.02348v1
- Date: Mon, 02 Mar 2026 19:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.524069
- Title: Diffusion-MPC in Discrete Domains: Feasibility Constraints, Horizon Effects, and Critic Alignment: Case study with Tetris
- Title(参考訳): 離散領域における拡散MPC:可能性制約、水平効果、批判アライメント:テトリスを用いたケーススタディ
- Authors: Haochuan Kevin Wang,
- Abstract要約: 本研究では,テトリスをケーススタディとして,拡散モデル予測制御(拡散MPC)を個別領域で検討した。
我々のプランナーは、MaskGITスタイルの離散デノイザを用いて候補配置シーケンスをサンプリングし、再ランク付けによりアクションを選択する。
本研究では,(1)有効配置に対するロジットマスキングによる実現可能性に制約のあるサンプリング,(2)スコアを用いた戦略の再評価,事前訓練されたDQN批判,およびハイブリッド組み合わせ,(3)候補数と計画の地平線におけるスケーリングの計算,の3つの要因を分析した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study diffusion-based model predictive control (Diffusion-MPC) in discrete combinatorial domains using Tetris as a case study. Our planner samples candidate placement sequences with a MaskGIT-style discrete denoiser and selects actions via reranking. We analyze three key factors: (1) feasibility-constrained sampling via logit masking over valid placements, (2) reranking strategies using a heuristic score, a pretrained DQN critic, and a hybrid combination, and (3) compute scaling in candidate count and planning horizon. We find that feasibility masking is necessary in discrete domains, removing invalid action mass (46%) and yielding a 6.8% improvement in score and 5.6% improvement in survival over unconstrained sampling. Naive DQN reranking is systematically misaligned with rollout quality, producing high decision regret (mean 17.6, p90 36.6). Shorter planning horizons outperform longer ones under sparse and delayed rewards, suggesting uncertainty compounding in long imagined rollouts. Overall, compute choices (K, H) determine dominant failure modes: small K limits candidate quality, while larger H amplifies misranking and model mismatch. Our findings highlight structural challenges of diffusion planners in discrete environments and provide practical diagnostics for critic integration.
- Abstract(参考訳): テトリスを用いた拡散モデル予測制御(拡散MPC)について検討した。
我々のプランナーは、MaskGITスタイルの離散デノイザを用いて候補配置シーケンスをサンプリングし、再ランク付けによりアクションを選択する。
本研究では,(1)有効配置に対するロジットマスキングによる実現可能性に制約のあるサンプリング,(2)ヒューリスティックスコアを用いた戦略の再評価,事前訓練されたDQN批判,およびハイブリッド組み合わせ,(3)候補数と計画の地平線におけるスケーリングの計算,の3つの要因を解析した。
その結果, 個別領域ではマスキングが必須であり, 無効な動作質量(46%)を除去し, スコアが6.8%, 生存率が5.6%向上した。
ナイーブDQNのリグレードは、ロールアウトの品質と体系的に不一致であり、高い決定的後悔をもたらす(平均17.6, p90 36.6)。
より短い計画の地平線は、まばらで遅れた報酬の下でより長いものよりも優れており、長い間想像されていたロールアウトにおいて不確実性が複雑になっていることを示唆している。
全体として、計算選択(K, H)が支配的な障害モードを決定する: 小さなKは候補品質を制限し、大きいHはミスランクとモデルミスマッチを増幅する。
本研究は, 個別環境における拡散プランナーの構造的課題を取り上げ, 批判統合のための実践的診断を行った。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Certain Head, Uncertain Tail: Expert-Sample for Test-Time Scaling in Fine-Grained MoE [27.8012190589404]
きめ細かいMoEは、層ごとに何百ものよく訓練されたエキスパートとトークンごとに複数の専門家がアクティベーションする。
ルータスコアは、ある程度の高信頼度専門家の頭と、不確実な低信頼度候補の尾を示す。
本稿では,不確実な尾に制御性を注入しながら高信頼度の選択を保存し,出力を不安定にすることなく多種多様な生成を可能にする訓練自由度手法であるExpert-Sampleを提案する。
論文 参考訳(メタデータ) (2026-02-02T18:39:33Z) - Prune-Then-Plan: Step-Level Calibration for Stable Frontier Exploration in Embodied Question Answering [52.69447404069251]
大規模視覚言語モデル(VLM)は、オープン語彙推論のための強力なセマンティック先行情報を提供することにより、EQAエージェントの改良を行った。
ステップレベルキャリブレーションによる探索を安定化するフレームワークPrune-Then-Planを提案する。
論文 参考訳(メタデータ) (2025-11-24T22:50:50Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Test-time Verification via Optimal Transport: Coverage, ROC, & Sub-optimality [53.03186946689658]
検証によるテストタイムのスケーリングは、大規模言語モデルのパフォーマンス向上を約束している。
検証の効果は、(i)ジェネレータのカバレッジ、(ii)検証器の収束領域(ROC)、(iii)サンプリングアルゴリズムの準最適性の3つの相互作用を通して現れる。
本稿では,輸送問題として検証可能なテストタイムスケーリングの枠組みを定め,カバレッジ,ROC,サブ最適性の相互作用を特徴付ける。
論文 参考訳(メタデータ) (2025-10-21T18:05:42Z) - Sample-Centric Multi-Task Learning for Detection and Segmentation of Industrial Surface Defects [3.0497940633809395]
試料品質制御(QC)のための工業用表面欠陥検査は、与えられた試料が欠陥を含むか否かを同時に決定し、それらの欠陥を局所化する必要がある。
既存のモデルは強いピクセルオーバーラップ測定値を得るが、サンプルレベルでの安定性は不十分である。
サンプル中心型マルチタスク学習フレームワークと評価スイートを提案する。
論文 参考訳(メタデータ) (2025-10-15T07:24:26Z) - Multi-Agent Regime-Conditioned Diffusion (MARCD) for CVaR-Constrained Portfolio Decisions [0.0]
本稿では, (i) 潜伏状態を予測するガウスHMM, (ii) 条件付きシナリオを生成する拡散生成器, (iii) 混合, 縮小モーメントによる信号抽出, (iv) 制御されたCVaRエピグラフプログラムについて述べる。
論文 参考訳(メタデータ) (2025-10-12T20:56:10Z) - Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - A Deep Reinforcement Learning Approach to Rare Event Estimation [30.670114229970526]
自律システムの設計における重要なステップは、失敗が起こる確率を評価することである。
安全クリティカルな領域では、モンテカルロサンプリングによる政策の評価が非効率であるように、失敗確率は非常に小さい。
逐次意思決定システムにおいて、稀な事象の確率を効率的に推定できる2つの適応的重要度サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-22T18:29:14Z) - Uncertainty-Driven Action Quality Assessment [11.958132175629368]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Privacy Preserving Recalibration under Domain Shift [119.21243107946555]
本稿では,差分プライバシー制約下での校正問題の性質を抽象化する枠組みを提案する。
また、新しいリカレーションアルゴリズム、精度温度スケーリングを設計し、プライベートデータセットの事前処理より優れています。
論文 参考訳(メタデータ) (2020-08-21T18:43:37Z) - REAK: Reliability analysis through Error rate-based Adaptive Kriging [2.066555810789929]
本稿では、誤り率に基づく適応クリギング(REAK)による信頼性解析を提案する。
ここではリンデベルク条件に基づく中央極限定理の拡張を用いて、間違った符号推定を持つ設計サンプルの分布を導出する。
その結果,REAKは最先端手法と比較して計算要求を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2020-02-04T03:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。