論文の概要: Drift is a Sampling Error: SNR-Aware Power Distributions for Long-Horizon Robotic Planning
- arxiv url: http://arxiv.org/abs/2605.09537v1
- Date: Sun, 10 May 2026 13:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.302367
- Title: Drift is a Sampling Error: SNR-Aware Power Distributions for Long-Horizon Robotic Planning
- Title(参考訳): サンプリング誤差であるドリフト:長距離ロボット計画のためのSNR対応電力分布
- Authors: Kewei Chen, Yayu Long, Mingsheng Shang,
- Abstract要約: トレーニング不要な推論時間計算フレームワークであるCAPS(Context-Aware Power Sampling)を提案する。
CAPSはグローバルな軌道の確率を高め、モデルの条件付き生成軌道分布のルックアヘッド検索を可能にする。
RoboTwin、Simpler-WindowX、Libero-longベンチマークの実験では、CAPSは強力なベースラインよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 6.615277432526784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress in Vision-Language-Action (VLA) models for robotic control, instruction drift remains a persistent failure mode in long-horizon tasks. This paper reconceptualizes this phenomenon, positing that instruction drift is fundamentally a systematic sampling error: local greedy sampling is prone to collapsing into "Negative Pivotal Windows"--irreversible local optima with high local probability that sever global success pathways. To address this, we propose Context-Aware Power Sampling (CAPS), a training-free inference-time computation framework. CAPS leverages power distributions to sharpen global trajectory probabilities, enabling lookahead search over the model's conditional generative trajectory distribution. Furthermore, we introduce a metacognitive control mechanism based on Signal-to-Noise Ratio (SNR). This mechanism triggers adaptive MCMC search solely when drift risk is detected, enabling a dynamic transition from "intuitive fast thinking" to "rational slow search." Experiments on RoboTwin, Simpler-WindowX, and Libero-long benchmarks show that CAPS achieves substantial improvements over strong baselines, including OpenVLA and TACO, without parameter updates. These results support the effectiveness of adaptive inference-time computation for improving long-horizon robustness in embodied control.
- Abstract(参考訳): ロボット制御のためのVLA(Vision-Language-Action)モデルが急速に進歩したにもかかわらず、命令ドリフトは長い水平作業において永続的な障害モードのままである。
本稿では,この現象を再認識し,命令ドリフトが系統的なサンプリング誤差であることを示す。局所グリージーサンプリングは,グローバルな成功経路を断ち切るような,非可逆な局所オプティマに崩壊する傾向にある。
これを解決するために、トレーニング不要な推論時間計算フレームワークであるCAPS(Context-Aware Power Smpling)を提案する。
CAPSは電力分布を利用してグローバルな軌道の確率を鋭くし、モデルの条件付き生成軌道の分布をルックアヘッドで探索することができる。
さらに,SNR(Signal-to-Noise Ratio)に基づくメタ認知制御機構を導入する。
このメカニズムは、ドリフトリスクが検出された場合にのみ適応MCMC探索をトリガーし、「直感的な高速思考」から「合理的な遅い探索」への動的移行を可能にする。
RoboTwin、Simpler-WindowX、Libero-longベンチマークの実験では、CAPSはパラメータ更新なしで、OpenVLAやTACOといった強力なベースラインよりも大幅に改善されている。
これらの結果は, 適応的推論時間計算の有効性を裏付けるものであり, エンボディド制御における長軸ロバスト性の向上に寄与する。
関連論文リスト
- See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。
SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。
SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文 参考訳(メタデータ) (2026-03-10T07:22:51Z) - When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift [64.37959940809633]
時間的持続的なセンサ故障下でのPPOのロバスト性について検討する。
トランスフォーマーを用いたシーケンスポリシーは, センサ数が少ない場合でも高いリターンを保ちながら, 堅牢性, RNN, SSMよりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-03-04T22:21:54Z) - GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler [54.10960908347221]
我々は、学習可能な密度から条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
論文 参考訳(メタデータ) (2026-02-15T09:57:47Z) - DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training [94.568675548967]
実環境における訓練強化学習(RL)システムは、ノイズの多い監視とドメイン外の一般化が不十分なため、依然として困難である。
近年の分布RL法は、複数の量子点を持つ値をモデル化することでロバスト性を向上させるが、スカラーとして各量子点を独立に学習する。
DFPOは、時間ステップをまたいだ連続フローとして値をモデル化する、ロバストな分散RLフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T17:07:42Z) - Imitation learning-based spacecraft rendezvous and docking method with Expert Demonstration [8.727025636218528]
既存の宇宙船のランデブーとドッキング制御方法は、事前に定義された動的モデルに依存している。
本稿では,専門家による実証から制御ポリシーを学習するImitation Learningベースのフレームワークを提案する。
提案手法は高精度でエネルギー効率の良いモデルレスランデブーとドッキング制御を実現する。
論文 参考訳(メタデータ) (2026-01-19T10:58:26Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Trajectory Planning for Autonomous Vehicles Using Hierarchical
Reinforcement Learning [21.500697097095408]
不確実かつ動的条件下で安全な軌道を計画することは、自律運転問題を著しく複雑にする。
RRT(Rapidly Exploring Random Trees)のような現在のサンプリングベース手法は、高い計算コストのため、この問題には理想的ではない。
軌道計画のための階層型強化学習構造とPID(Proportional-Integral-Derivative)コントローラを提案する。
論文 参考訳(メタデータ) (2020-11-09T20:49:54Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。