Fugu-MT 論文翻訳(概要): When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering

論文の概要: When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering

arxiv url: http://arxiv.org/abs/2602.22474v1
Date: Wed, 25 Feb 2026 23:23:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.443682
Title: When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering
Title（参考訳）: いつ行動するか、質問するか、学ぶか:不確実性に敏感な政策ステアリング
Authors: Jessie Yuan, Yilin Wu, Andrea Bajcsy,
Abstract要約: ポリシーステアリングは、デプロイ時にロボットの振る舞いを適用する新しい方法です。 VLM(Vision-Language Models)は、それらの推論能力のために、汎用的な検証を約束する。セマンティックタスクの不確実性と低レベルのアクション実現可能性について共同で理由づけるフレームワークである不確実性対応型ポリシーステアリング(UPS)を提案する。
参考スコア（独自算出の注目度）: 10.01278648231868
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Policy steering is an emerging way to adapt robot behaviors at deployment-time: a learned verifier analyzes low-level action samples proposed by a pre-trained policy (e.g., diffusion policy) and selects only those aligned with the task. While Vision-Language Models (VLMs) are promising general-purpose verifiers due to their reasoning capabilities, existing frameworks often assume these models are well-calibrated. In practice, the overconfident judgment from VLM can degrade the steering performance under both high-level semantic uncertainty in task specifications and low-level action uncertainty or incapability of the pre-trained policy. We propose uncertainty-aware policy steering (UPS), a framework that jointly reasons about semantic task uncertainty and low-level action feasibility, and selects an uncertainty resolution strategy: execute a high-confidence action, clarify task ambiguity via natural language queries, or ask for action interventions to correct the low-level policy when it is deemed incapable at the task. We leverage conformal prediction to calibrate the composition of the VLM and the pre-trained base policy, providing statistical assurances that the verifier selects the correct strategy. After collecting interventions during deployment, we employ residual learning to improve the capability of the pre-trained policy, enabling the system to learn continually but with minimal expensive human feedback. We demonstrate our framework through experiments in simulation and on hardware, showing that UPS can disentangle confident, ambiguous, and incapable scenarios and minimizes expensive user interventions compared to uncalibrated baselines and prior human- or robot-gated continual learning approaches. Videos can be found at https://jessie-yuan.github.io/ups/
Abstract（参考訳）: 学習検証器は、事前訓練されたポリシー(例えば、拡散ポリシー)によって提案された低レベルのアクションサンプルを分析し、タスクに沿ったもののみを選択する。 Vision-Language Models (VLM) はその推論能力のために汎用的な検証を約束しているが、既存のフレームワークはこれらのモデルが十分に校正されていると仮定することが多い。実際には、VLMの過信判断は、タスク仕様におけるハイレベルなセマンティックな不確実性と、事前訓練されたポリシーの低レベルなアクションの不確実性または不能性の両方の下で、操舵性能を低下させることができる。本研究では,意味的タスクの不確実性や低レベルのアクション実現可能性について共同で理由づけるフレームワークである不確実性対応型ポリシーステアリング(UPS)を提案し,不確実性解決戦略を選択する。我々は,適合予測を利用してVLMの構成と事前訓練された基本方針を校正し,検証者が正しい戦略を選択するための統計的保証を提供する。デプロイ中に介入を収集した後、我々は残留学習を用いて事前訓練されたポリシーの能力を改善し、システムは継続的に学習できるが、最低限の人的フィードバックで学習することができる。筆者らは,シミュレーションおよびハードウェアの実験を通じて,UPSが信頼性,曖昧さ,難解なシナリオを解消し,非校正ベースラインや従来の人間やロボットが支配する継続学習アプローチと比較して,コストのかかるユーザ介入を最小化できることを実証した。ビデオはhttps://jessie-yuan.github.io/ups/で見ることができる。

関連論文リスト

LLMs for High-Frequency Decision-Making: Normalized Action Reward-Guided Consistency Policy Optimization [12.894668119938663]
大規模言語モデル(LLM)は、シーケンシャルな意思決定エージェント開発の基礎となる。本稿では,正規化アクションリワード誘導一貫性ポリシー最適化を提案する。典型的な高周波タスクであるUAV追従実験により,本手法は独立タスクおよび複合タスクにおいて優れた性能を示すことを示す。
論文参考訳（メタデータ） (2026-03-03T07:22:14Z)
VLS: Steering Pretrained Robot Policies via Vision-Language Models [31.189909515514668]
Vision-Language Steering (VLS)は、凍結生成ロボットポリシーの推論時間適応のためのトレーニング不要フレームワークである。 VLSは、適応を推論時間制御問題として扱い、事前訓練された拡散またはフローマッチングポリシーのサンプリングプロセスを操る。
論文参考訳（メタデータ） (2026-02-03T19:50:16Z)
Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。 GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文参考訳（メタデータ） (2026-02-03T11:41:02Z)
Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-07T02:24:44Z)
Learning Verifiable Control Policies Using Relaxed Verification [49.81690518952909]
本研究は,実行中にプロパティを評価可能なポリシを目標として,トレーニングを通じて検証を実施することを提案する。アプローチは、微分可能な到達可能性分析を使用して、新しいコンポーネントを損失関数に組み込むことである。
論文参考訳（メタデータ） (2025-04-23T16:54:35Z)
How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation [17.638831964639834]
行動クローニングポリシーは、人間のデモンストレーションから学ぶことで複雑なタスクを解決することに成功している。本稿では,任意の環境下でのロボット性能について,より低バウンドなフレームワークを提案する。実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
論文参考訳（メタデータ） (2024-05-08T22:00:35Z)
PARTNR: Pick and place Ambiguity Resolving by Trustworthy iNteractive leaRning [5.046831208137847]
本稿では,選択と配置のポーズにおける複数のモーダルを解析することにより,訓練されたポリシーのあいまいさを検出できるPartinNRアルゴリズムを提案する。 PartNRは、追加のユーザデモが必要なかどうかを判断する適応型、感度ベースのゲーティング機能を採用している。テーブルトップのピック・アンド・プレイス・タスクにおけるPartinNRの性能を実演する。
論文参考訳（メタデータ） (2022-11-15T17:07:40Z)
Constrained Policy Optimization for Controlled Self-Learning in Conversational AI Systems [18.546197100318693]
ユーザ定義制約により、個々のドメインに対するきめ細かい探索ターゲットをサポートするスケーラブルなフレームワークを導入する。この問題に対処するために,スケーラブルで実用的なメタ段階学習手法を提案する。我々は、現実的な制約ベンチマークのセット上で、現実世界の会話型AIのデータを使用して広範な実験を行う。
論文参考訳（メタデータ） (2022-09-17T23:44:13Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-08T23:16:19Z)
Guided Uncertainty-Aware Policy Optimization: Combining Learning and Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文参考訳（メタデータ） (2020-05-21T19:47:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。