論文の概要: Risk-Aware Reinforcement Learning for Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2603.04579v1
- Date: Wed, 04 Mar 2026 20:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.914118
- Title: Risk-Aware Reinforcement Learning for Mobile Manipulation
- Title(参考訳): 移動操作におけるリスク認識強化学習
- Authors: Michael Groom, James Wilson, Nick Hawes, Lars Kunze,
- Abstract要約: 我々は,自我中心の深度観測に基づく移動体操作のためのリスク対応型ビズモータポリシーを学習する。
また,イミテーション学習(Imitation Learning, IL)を通して, 自我中心の深度観測を前提としたビズモータ政策にリスク認識行動が移行可能であることを示す。
- 参考スコア(独自算出の注目度): 12.196781664357907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For robots to successfully transition from lab settings to everyday environments, they must begin to reason about the risks associated with their actions and make informed, risk-aware decisions. This is particularly true for robots performing mobile manipulation tasks, which involve both interacting with and navigating within dynamic, unstructured spaces. However, existing whole-body controllers for mobile manipulators typically lack explicit mechanisms for risk-sensitive decision-making under uncertainty. To our knowledge, we are the first to (i) learn risk-aware visuomotor policies for mobile manipulation conditioned on egocentric depth observations with runtime-adjustable risk sensitivity, and (ii) show risk-aware behaviours can be transferred through Imitation Learning (IL) to a visuomotor policy conditioned on egocentric depth observations. Our method achieves this by first training a privileged teacher policy using Distributional Reinforcement Learning (DRL), with a risk-neutral distributional critic. Distortion risk-metrics are then applied to the critic's predicted return distribution to calculate risk-adjusted advantage estimates used in policy updates to achieve a range of risk-aware behaviours. We then distil teacher policies with IL to obtain risk-aware student policies conditioned on egocentric depth observations. We perform extensive evaluations demonstrating that our trained visuomotor policies exhibit risk-aware behaviour (specifically achieving better worst-case performance) while performing reactive whole-body motions in unmapped environments, leveraging live depth observations for perception.
- Abstract(参考訳): ロボットが実験室の設定から日常の環境への移行に成功するためには、自分たちの行動に関連するリスクを推論し、情報とリスクを意識した意思決定をしなければならない。
これは、動的で非構造的な空間内での対話とナビゲートの両方を含む、モバイル操作タスクを実行するロボットに特に当てはまる。
しかし、移動マニピュレータ用の既存の全身制御装置は、不確実性の下でリスクに敏感な意思決定の明確なメカニズムを欠いている。
私たちの知る限りでは、私たちは初めてです。
一 実行時適応型リスク感度による自我中心深度観測に基づく移動操作のためのリスク対応型ビズモータポリシーを学習し、
(II)イミテーションラーニング(IL)を通して,自我中心の深度観測を前提とした自覚的政策にリスク認識行動が移行可能であることを示す。
本手法は,まず,リスクニュートラルな分布批判を伴う分布強化学習(DRL)を用いて,特権教師の政策を訓練する。
ゆがみリスク測定は、批評家の予測したリターン分布に適用され、ポリシー更新で使用されるリスク調整された有利な見積もりを計算し、さまざまなリスク認識行動を達成する。
次に,教師の政策をILで駆除し,自我中心の深度観測を前提としたリスク対応の学生政策を得る。
トレーニングされた運動器政策がリスク認識行動を示し(特に最悪の場合のパフォーマンスが向上)、非マップ環境下では反応性のある全身運動を行い、生の深度観察を知覚に活用することを示し、広範囲な評価を行った。
関連論文リスト
- Capability-Oriented Training Induced Alignment Risk [101.37328448441208]
我々は、強化学習で訓練された言語モデルが、その報酬を最大化するために欠陥を利用することを自然に学習するかどうかを考察する。
我々の実験は、モデルがこれらの脆弱性を常に活用し、タスクの正しさや安全性を犠牲にして報酬を著しく増大させる機会論的戦略を発見していることを示している。
我々の研究結果は、将来のAIの安全作業がコンテンツモデレーションを超えて、トレーニング環境の厳格な監査と確保、および報奨メカニズム自体に拡張する必要があることを示唆している。
論文 参考訳(メタデータ) (2026-02-12T16:13:14Z) - The Missing Half: Unveiling Training-time Implicit Safety Risks Beyond Deployment [148.80266237240713]
暗黙のトレーニング時間安全リスクは、モデルの内部インセンティブとコンテキスト背景情報によって引き起こされる。
5つのリスクレベル、10つのきめ細かいリスクカテゴリ、3つのインセンティブを持つ分類を導入した。
我々の結果は、過度に見過ごされているが、訓練における緊急の安全上の課題を特定します。
論文 参考訳(メタデータ) (2026-02-04T04:23:58Z) - Can Risk-taking AI-Assistants suitably represent entities [0.0]
本研究では,言語モデル(LM)におけるリスク回避の操作性について検討する。
性別固有の態度、不確実性、役割に基づく意思決定、リスク回避の操作性に焦点を当てている。
結果は、人間とAIのリスク選好をより良く整合させるために、AI設計を洗練するための方向性を示唆している。
論文 参考訳(メタデータ) (2025-10-09T11:55:31Z) - Learning Risk-Aware Quadrupedal Locomotion using Distributional Reinforcement Learning [12.156082576280955]
危険環境への展開には、ロボットが事故を防ぐための行動や動きに関連するリスクを理解する必要がある。
本稿では,分散強化学習を用いたリスクセンシティブな移動訓練手法を提案する。
シミュレーションおよび四足歩行ロボットANYmalにおいて,突発的リスクに敏感な移動行動を示す。
論文 参考訳(メタデータ) (2023-09-25T16:05:32Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [54.00107408956307]
本稿では,RSRL問題に対するポリシー改善のための新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - Learning Disturbances Online for Risk-Aware Control: Risk-Aware Flight
with Less Than One Minute of Data [33.7789991023177]
安全クリティカルなリスク認識制御の最近の進歩は、システムが直面する可能性のある障害に関するアプリオリの知識に基づいている。
本稿では,リスク認識型オンラインコンテキストにおいて,これらの障害を効果的に学習する手法を提案する。
論文 参考訳(メタデータ) (2022-12-12T21:40:23Z) - Adaptive Risk Tendency: Nano Drone Navigation in Cluttered Environments
with Distributional Reinforcement Learning [17.940958199767234]
適応型リスク傾向ポリシーを学習するための分散強化学習フレームワークを提案する。
本アルゴリズムは,シミュレーションと実世界の実験の両方において,ハエのリスク感度を調整可能であることを示す。
論文 参考訳(メタデータ) (2022-03-28T13:39:58Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Enhanced Adversarial Strategically-Timed Attacks against Deep
Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。
実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-20T21:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。