論文の概要: Planner-Admissible Graph-PDE Value Extensions for Sparse Goal-Conditioned Planning
- arxiv url: http://arxiv.org/abs/2605.19185v1
- Date: Mon, 18 May 2026 23:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.025689
- Title: Planner-Admissible Graph-PDE Value Extensions for Sparse Goal-Conditioned Planning
- Title(参考訳): Sparse Goal-Conditioned Planner-Admissible Graph-PDE Value Extensions
- Authors: Shiheng Zhang,
- Abstract要約: 演算argmin-Qプランナーの下で,どのグラフ値拡張がプランナー対応かを検討する。
ロールアウトに沿った代理値エラーが真のアクションギャップの半分以下である場合、greedyのロールアウトがゴールに達する。
- 参考スコア(独自算出の注目度): 0.6768558752130311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse goal-conditioned planning with few cost-to-go labels can be viewed as a graph-PDE Dirichlet extension problem: extend sparse labels on a goal-dependent boundary to unlabelled graph vertices so that greedy rollouts reach the goal. We study which graph value extensions are planner-admissible under the operational argmin-Q planner. Our main result is a local action-gap certificate: if the surrogate value error along the rollout stays below half the true action gap, then the greedy rollout reaches the goal. Absolutely Minimal Lipschitz Extension (AMLE), the p=infinity endpoint of the graph p-Laplacian family, instantiates this certificate through a comparison-principle fill-distance bound. Harmonic extension, by contrast, can mis-rank local actions because its values reflect boundary hitting probabilities rather than shortest-path greedy order. On 120 AntMaze layout-derived graph configurations, harmonic extension achieves 0.584 aggregate rollout success, while AMLE reaches 0.970. Finite high-p methods also enter a high-success regime, with success 0.903 for p=4, 0.973 for p=8, and 0.982 for a fixed-budget p=16 solver, though the p=16 row is not used as a converged endpoint ranking due to incomplete solver certification. Mechanism audits show that many rollout decisions occur in AMLE-compatible but harmonic-incompatible local geometry, and that AMLE corrects most harmonic inversions on the rollout-weighted decision scope.
- Abstract(参考訳): グラフ-PDEディリクレ拡張問題(英: graph-PDE Dirichlet extension problem: ゴール依存境界上のスパースラベルを未ラベルのグラフ頂点に拡張することで、欲求的なロールアウトがゴールに達する。
演算argmin-Qプランナーの下で,どのグラフ値拡張がプランナー対応かを検討する。
ロールアウトに沿った代理値エラーが真のアクションギャップの半分以下である場合、greedyのロールアウトがゴールに達する。
絶対最小リプシッツ拡張 (AMLE) はグラフ p-ラプラシアン族における p=無限終点であり、この証明を比較主補間距離境界によってインスタンス化する。
対照的にハーモニック拡張は、その値が最短経路の欲求順序よりも境界打つ確率を反映しているため、局所的な作用を誤る可能性がある。
120 AntMazeレイアウト由来のグラフ構成では、高調波拡張は0.584アグリゲートロールアウトで成功し、AMLEは0.970に達した。
有限高p法はまた、p=4で0.903、p=8で0.973、固定予算のp=16ソルバで0.982という高確率状態に入るが、p=16行は不完全解法証明による収束エンドポイントランキングには使用されない。
メカニズム監査では、AMLE互換だが高調波非互換な局所幾何学において多くのロールアウト決定が発生し、AMLEはロールアウト重み付き決定範囲において最も高調波反転を補正する。
関連論文リスト
- DISA: Offline Importance Sampling for Distribution-Matching LLM-RL [56.9445657766829]
本稿では、このキャリブレーション問題をRLループの外に移動させるdisAを紹介する。
DISAは提案トラジェクトリをオフラインに描画し、重要サンプリングによってパーティション関数を推定し、結果として発生するパーティション関数の推定を凍結する。
6つの数学と3つのコードベンチマークにまたがる2つのオープンウェイトなバックボーンでは、DisdisAはオンラインに結合した分散マッチングベースラインフローにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-05-17T07:14:44Z) - A Closed-Form Persistence-Landmark Pipeline for Certified Point-Cloud and Graph Classification [0.0]
PLACE(Persistence-Landmark Analytic Classification Engine)は、点雲とグラフを分類するためのクローズドフォームパイプラインである。
3つの量的保証 -- マージンベースの過剰リスク率、クローズドフォーム記述子選択ルール、プレディションごとの証明書 -- は、トレーニングラベルのみから導かれる。
論文 参考訳(メタデータ) (2026-05-04T17:15:01Z) - Adaptive Threshold-Driven Continuous Greedy Method for Scalable Submodular Optimization [0.0]
マットロイド制約の下でのサブモジュールは、センシング、データマージ、アクティブラーニング、リソース割り当てなどの応用において、最適化の基本的な問題である。
textitATCG(underlineAdaptive underlineThresholded underlineThresholded underlineThresholded underlineGreedy)を提案する。
CIFAR-10動物データセットを用いたクラスバランス型プロトタイプ選択問題の実験
論文 参考訳(メタデータ) (2026-04-03T19:32:39Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - δ-EMG: A Monotonic Graph Index for Approximate Nearest Neighbor Search [33.62724124122037]
本稿では,クエリ時における近似精度を制御する誤り境界付きANN探索アルゴリズムを提案する。
0.99のリコール条件下では、SIFT1Mデータセット上で19,000QPSを達成し、他の手法よりも40%以上性能が向上する。
論文 参考訳(メタデータ) (2025-11-21T03:20:54Z) - Identity-Link IRT for Label-Free LLM Evaluation: Preserving Additivity in TVD-MI Scores [3.959606869996232]
本報告では,TVD-MIの2次試行平均値が,非線形リンク関数を使わずに項目応答理論(IRT)に適合する付加的構造で中心確率スコアを得ることを示す。
Giniエントロピーからこのクリップ付き線形評価を導出し、境界飽和を扱うボックス制約最小二乗の定式化を導出する。
論文 参考訳(メタデータ) (2025-10-16T17:59:25Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - $\texttt{FedBC}$: Calibrating Global and Local Models via Federated
Learning Beyond Consensus [66.62731854746856]
フェデレートラーニング(FL)では、デバイス全体にわたるモデル更新の集約を通じて、グローバルモデルを協調的に学習する目的は、ローカル情報を通じたパーソナライズという目標に反対する傾向にある。
本研究では,このトレードオフを多基準最適化により定量的にキャリブレーションする。
私たちは、$texttFedBC$が、スイートデータセット間でグローバルおよびローカルモデルのテスト精度のメトリクスのバランスをとることを実証しています。
論文 参考訳(メタデータ) (2022-06-22T02:42:04Z) - Optimal and instance-dependent guarantees for Markovian linear stochastic approximation [47.912511426974376]
標準スキームの最後の繰り返しの2乗誤差に対して、$t_mathrmmix tfracdn$の非漸近境界を示す。
マルコフ雑音による政策評価について,これらの結果のまとめを導出する。
論文 参考訳(メタデータ) (2021-12-23T18:47:50Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。