論文の概要: Learning rewards for robotic ultrasound scanning using probabilistic
temporal ranking
- arxiv url: http://arxiv.org/abs/2002.01240v3
- Date: Thu, 22 Jun 2023 19:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 18:02:07.620185
- Title: Learning rewards for robotic ultrasound scanning using probabilistic
temporal ranking
- Title(参考訳): 確率的時間的ランキングを用いたロボット超音波スキャンの学習報酬
- Authors: Michael Burke, Katie Lu, Daniel Angelov, Art\=uras Strai\v{z}ys, Craig
Innes, Kartic Subr, Subramanian Ramamoorthy
- Abstract要約: 本研究は,課題の目的が不明な逆問題を考えるとともに,実例から報酬関数を推定する必要がある。
既存の報酬推論戦略の多くは、実験の探索的な性質のため、この種の問題には適していない。
この確率的時間的ランク付けアプローチを定式化し、既存のアプローチを改善したことを示す。
- 参考スコア(独自算出の注目度): 17.494224125794187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Informative path-planning is a well established approach to visual-servoing
and active viewpoint selection in robotics, but typically assumes that a
suitable cost function or goal state is known. This work considers the inverse
problem, where the goal of the task is unknown, and a reward function needs to
be inferred from exploratory example demonstrations provided by a demonstrator,
for use in a downstream informative path-planning policy. Unfortunately, many
existing reward inference strategies are unsuited to this class of problems,
due to the exploratory nature of the demonstrations. In this paper, we propose
an alternative approach to cope with the class of problems where these
sub-optimal, exploratory demonstrations occur. We hypothesise that, in tasks
which require discovery, successive states of any demonstration are
progressively more likely to be associated with a higher reward, and use this
hypothesis to generate time-based binary comparison outcomes and infer reward
functions that support these ranks, under a probabilistic generative model. We
formalise this \emph{probabilistic temporal ranking} approach and show that it
improves upon existing approaches to perform reward inference for autonomous
ultrasound scanning, a novel application of learning from demonstration in
medical imaging while also being of value across a broad range of goal-oriented
learning from demonstration tasks. \keywords{Visual servoing \and reward
inference \and probabilistic temporal ranking
- Abstract(参考訳): インフォーマティブパスプランニングは、ロボット工学における視覚サービスとアクティブな視点選択の確立したアプローチであるが、一般的には適切なコスト関数や目標状態が知られていると仮定する。
本研究は,課題の目的が不明な逆問題と,実証者が提供する探索的例示から報酬関数を推定し,下流の情報経路計画政策に利用する必要があることを考察する。
残念なことに、既存の報酬推論戦略の多くは、デモの探索的な性質のため、このタイプの問題には適していない。
本稿では,この下位最適探索型実験を行う場合の課題の類型に対処するための代替手法を提案する。
発見を必要とするタスクでは、任意のデモンストレーションの連続した状態が徐々に高い報酬に関連付けられる可能性が高くなり、この仮説を用いて時間ベースの二項比較結果を生成し、確率論的生成モデルの下でこれらのランクをサポートする報酬関数を推測する。
我々は,この「emph{probabilistic temporal ranking}(確率的時間ランク付け)」アプローチを定式化し,医療画像における実演からの学習の新たな応用である自律型超音波スキャンに対する報酬推論の既存手法を改良し,また,実演タスクから幅広い目標志向の学習に価値をもたらすことを示す。
\keywords{visual servoing \and reward inference \ and probabilistic temporal ranking
関連論文リスト
- Screw Geometry Meets Bandits: Incremental Acquisition of Demonstrations to Generate Manipulation Plans [9.600625243282618]
本研究では,1回に1回に1回,十分な審美的デモンストレーションの集合を得るという課題について検討する。
実験結果から操作計画を生成するために, (i) スクリュー幾何表現を用いて, これらのオープンな問題に対処する新しい手法を提案する。
本研究は,2つの実例操作課題,すなわち注水とスクーピングに関する実験結果である。
論文 参考訳(メタデータ) (2024-10-23T20:57:56Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models [18.195406135434503]
本稿では,報酬関数を状態と行動に依存したポテンシャルに形成することにより,強化と模倣学習を組み合わせた手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
特に、これらのポテンシャルを表現するために、正規化フローとジェネレーティブ・アドバイサル・ネットワークの両方について検討する。
論文 参考訳(メタデータ) (2020-11-02T20:32:05Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - Active Preference-Based Gaussian Process Regression for Reward Learning [42.697198807877925]
一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
論文 参考訳(メタデータ) (2020-05-06T03:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。