Fugu-MT 論文翻訳(概要): "Guess what I'm doing": Extending legibility to sequential decision tasks

論文の概要: "Guess what I'm doing": Extending legibility to sequential decision tasks

arxiv url: http://arxiv.org/abs/2209.09141v1
Date: Mon, 19 Sep 2022 16:01:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-20 19:12:03.445935
Title: "Guess what I'm doing": Extending legibility to sequential decision tasks
Title（参考訳）: 「私がやっていること」--適性から逐次的な決定タスクへ拡張する
Authors: Miguel Faria, Francisco S. Melo, Ana Paiva
Abstract要約: 不確実性を考慮したシーケンシャルな意思決定課題における正当性の概念について検討する。提案手法はPoL-MDPと呼ばれ,不確実性に対処できる。
参考スコア（独自算出の注目度）: 8.70928211339504
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper we investigate the notion of legibility in sequential decision tasks under uncertainty. Previous works that extend legibility to scenarios beyond robot motion either focus on deterministic settings or are computationally too expensive. Our proposed approach, dubbed PoL-MDP, is able to handle uncertainty while remaining computationally tractable. We establish the advantages of our approach against state-of-the-art approaches in several simulated scenarios of different complexity. We also showcase the use of our legible policies as demonstrations for an inverse reinforcement learning agent, establishing their superiority against the commonly used demonstrations based on the optimal policy. Finally, we assess the legibility of our computed policies through a user study where people are asked to infer the goal of a mobile robot following a legible policy by observing its actions.
Abstract（参考訳）: 本稿では,不確実性下での逐次決定課題における正当性の概念について検討する。ロボットの動き以外のシナリオへのレジリエンスを拡大する以前の作業は、決定論的設定に集中するか、計算コストが高すぎる。提案手法はpol-mdpと呼ばれ,不確実性に対処し,計算的に把握可能である。我々は,複雑度が異なる複数のシミュレーションシナリオにおいて,最先端のアプローチに対するアプローチの利点を確立する。また,逆強化学習エージェントのデモンストレーションとして,当社のレジブル・ポリシーを活用し,その最適方針に基づく実演に対する優位性を確立した。最後に,モバイルロボットの動作を観察することで,有効なポリシーに従って目標を推測するユーザスタディを通じて,計算されたポリシーの正当性を評価する。

関連論文リスト

When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering [10.01278648231868]
ポリシーステアリングは、デプロイ時にロボットの振る舞いを適用する新しい方法です。 VLM(Vision-Language Models)は、それらの推論能力のために、汎用的な検証を約束する。セマンティックタスクの不確実性と低レベルのアクション実現可能性について共同で理由づけるフレームワークである不確実性対応型ポリシーステアリング(UPS)を提案する。
論文参考訳（メタデータ） (2026-02-25T23:23:22Z)
Learning Policy Representations for Steerable Behavior Synthesis [80.4542176039074]
マルコフ決定プロセス(MDP)を前提として,テスト時の行動ステアリングを促進するために,さまざまなポリシーの表現を学習する。これらの表現は、セットベースアーキテクチャを用いて、様々なポリシーに対して均一に近似できることを示す。変動生成法を用いてスムーズな潜伏空間を導出し,さらにコントラスト学習により、潜伏距離が値関数の差と一致するように形成する。
論文参考訳（メタデータ） (2026-01-29T21:52:06Z)
Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文参考訳（メタデータ） (2025-12-24T07:42:10Z)
Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies [25.760946763103483]
Imagination Policy(Imagination Policy)は,高精度ピック・アンド・プレイス・タスクを解くための新しいマルチタスク・キー・フレーム・ポリシー・ネットワークである。アクションを直接学習する代わりに、Imagination Policy は所望の状態を想像するために点雲を生成し、それが厳密なアクション推定を用いてアクションに変換される。
論文参考訳（メタデータ） (2024-06-17T17:00:41Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Predictive Performance Comparison of Decision Policies Under Confounding [32.21041697921289]
そこで本稿では, 意思決定ポリシーの予測性能を, 様々な現代的な識別手法で比較する手法を提案する。我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。
論文参考訳（メタデータ） (2024-04-01T01:27:07Z)
PARTNR: Pick and place Ambiguity Resolving by Trustworthy iNteractive leaRning [5.046831208137847]
本稿では,選択と配置のポーズにおける複数のモーダルを解析することにより,訓練されたポリシーのあいまいさを検出できるPartinNRアルゴリズムを提案する。 PartNRは、追加のユーザデモが必要なかどうかを判断する適応型、感度ベースのゲーティング機能を採用している。テーブルトップのピック・アンド・プレイス・タスクにおけるPartinNRの性能を実演する。
論文参考訳（メタデータ） (2022-11-15T17:07:40Z)
Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文参考訳（メタデータ） (2022-05-30T18:40:28Z)
A Reinforcement Learning Approach to the Stochastic Cutting Stock Problem [0.0]
本稿では,削減された無限水平決定プロセスとして,カットストック問題の定式化を提案する。最適解は、各状態と決定を関連付け、期待される総コストを最小化するポリシーに対応する。
論文参考訳（メタデータ） (2021-09-20T14:47:54Z)
Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文参考訳（メタデータ） (2021-09-14T14:56:23Z)
Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文参考訳（メタデータ） (2021-01-14T22:21:25Z)
Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文参考訳（メタデータ） (2020-12-30T03:22:35Z)
Continuous Action Reinforcement Learning from a Mixture of Interpretable Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文参考訳（メタデータ） (2020-06-10T16:02:08Z)
Guided Uncertainty-Aware Policy Optimization: Combining Learning and Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文参考訳（メタデータ） (2020-05-21T19:47:05Z)
Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文参考訳（メタデータ） (2020-05-17T03:41:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。