論文の概要: Fundamental Performance Limits for Sensor-Based Robot Control and Policy
Learning
- arxiv url: http://arxiv.org/abs/2202.00129v1
- Date: Mon, 31 Jan 2022 22:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 14:47:01.815424
- Title: Fundamental Performance Limits for Sensor-Based Robot Control and Policy
Learning
- Title(参考訳): センサベースロボット制御とポリシー学習の基本性能限界
- Authors: Anirudha Majumdar and Vincent Pacelli
- Abstract要約: 我々は,センサが提供したタスク関連情報を収集する量を定義する。
情報理論から一般化されたファノの不等式の新しいバージョンを用いて、この量によって1段階決定タスクの達成可能な最上位の報酬に上限が与えられることを実証する。
得られた境界を数値計算するアルゴリズムを提示し、3つの例についてそのアプローチを実証する。
- 参考スコア(独自算出の注目度): 7.271970309320002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our goal is to develop theory and algorithms for establishing fundamental
limits on performance for a given task imposed by a robot's sensors. In order
to achieve this, we define a quantity that captures the amount of task-relevant
information provided by a sensor. Using a novel version of the generalized Fano
inequality from information theory, we demonstrate that this quantity provides
an upper bound on the highest achievable expected reward for one-step decision
making tasks. We then extend this bound to multi-step problems via a dynamic
programming approach. We present algorithms for numerically computing the
resulting bounds, and demonstrate our approach on three examples: (i) the lava
problem from the literature on partially observable Markov decision processes,
(ii) an example with continuous state and observation spaces corresponding to a
robot catching a freely-falling object, and (iii) obstacle avoidance using a
depth sensor with non-Gaussian noise. We demonstrate the ability of our
approach to establish strong limits on achievable performance for these
problems by comparing our upper bounds with achievable lower bounds (computed
by synthesizing or learning concrete control policies).
- Abstract(参考訳): 我々のゴールは、ロボットのセンサーが課すタスクの基本的な性能限界を確立するための理論とアルゴリズムを開発することである。
これを実現するために、センサによって提供されるタスク関連情報の量をキャプチャする量を定義する。
情報理論から一般化されたファノ不等式の新しいバージョンを用いて,一段階の意思決定タスクに対して,この量が達成可能な最高の期待報酬の上限となることを実証する。
次に、動的プログラミングアプローチにより、この境界をマルチステップ問題に拡張します。
結果境界を数値計算するアルゴリズムを提示し,その手法を3つの例に示す。
i) 部分的に観測可能なマルコフ決定過程に関する文献からの溶岩問題
二 自由落下物体を捕獲するロボットに対応する連続状態及び観測空間のある例
(iii)非ガウス雑音の深さセンサによる障害物回避
我々は,これらの問題に対して,上界と達成可能な下界(具体的制御ポリシの合成や学習)を比較して,達成可能な性能の強い限界を確立するためのアプローチの能力を実証する。
関連論文リスト
- Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints [8.784438985280094]
線形制約が未知の多腕バンディットにおける純粋探索として問題を研究する。
まず、制約下での純粋な探索のために、サンプルの複雑さを低く抑えたラグランジアン緩和を提案する。
第二に、ラグランジアンの下界と凸の性質を利用して、トラック・アンド・ストップとガミファイド・エクスプローラー(LATSとLAGEX)の2つの計算効率の良い拡張を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:26:14Z) - Interpretable Anomaly Detection via Discrete Optimization [1.7150329136228712]
本稿では,シーケンシャルデータから本質的に解釈可能な異常検出を学習するためのフレームワークを提案する。
この問題は計算的に困難であることを示し,制約最適化に基づく2つの学習アルゴリズムを開発した。
プロトタイプ実装を用いて,提案手法は精度とF1スコアの点で有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-24T16:19:15Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Relevance-guided Unsupervised Discovery of Abilities with
Quality-Diversity Algorithms [1.827510863075184]
本稿では,その課題に適した行動特性を自律的に発見する品質多様性アルゴリズムであるRelevance-guided Unsupervised Discovery of Abilitiesを紹介する。
我々は、ロボットが完全な感覚データに基づいて自律的にその能力を発見しなければならない、シミュレーションされたロボット環境に対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-04-21T00:29:38Z) - Learning with Algorithmic Supervision via Continuous Relaxations [19.437400671428737]
エンドツーエンドのトレーニング可能なニューラルネットワークアーキテクチャにアルゴリズムを統合するアプローチを提案する。
有意義な勾配を得るために、各変数はロジスティック分布を介して摂動される。
提案した連続緩和モデルを4つの課題に対して評価し,各課題に特化して設計された緩和に追従できることを示す。
論文 参考訳(メタデータ) (2021-10-11T23:52:42Z) - Unsupervised Behaviour Discovery with Quality-Diversity Optimisation [1.0152838128195467]
品質多様性アルゴリズム(Quality-Diversity algorithm)は、与えられた問題に対する多様な高性能なソリューションの集合を見つけるために設計された進化的アルゴリズムのクラスを指す。
ロボット工学において、そのようなアルゴリズムはロボットの動作のほとんどをカバーするコントローラーの集合を生成するのに使用できる。
本稿では,自律型ロボットの能力を実現するアルゴリズムについて紹介する。
論文 参考訳(メタデータ) (2021-06-10T10:40:18Z) - High Dimensional Level Set Estimation with Bayesian Neural Network [58.684954492439424]
本稿では,ベイズニューラルネットワークを用いた高次元レベル集合推定問題を解く新しい手法を提案する。
各問題に対して対応する理論情報に基づく取得関数を導出してデータポイントをサンプリングする。
合成データセットと実世界データセットの数値実験により,提案手法は既存手法よりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2020-12-17T23:21:53Z) - A black-box adversarial attack for poisoning clustering [78.19784577498031]
本稿では,クラスタリングアルゴリズムのロバスト性をテストするために,ブラックボックス対逆攻撃法を提案する。
我々の攻撃は、SVM、ランダムフォレスト、ニューラルネットワークなどの教師付きアルゴリズムに対しても転送可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T18:19:31Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。