論文の概要: Learning rewards for robotic ultrasound scanning using probabilistic
temporal ranking
- arxiv url: http://arxiv.org/abs/2002.01240v2
- Date: Fri, 22 May 2020 13:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 03:35:26.901456
- Title: Learning rewards for robotic ultrasound scanning using probabilistic
temporal ranking
- Title(参考訳): 確率的時間的ランキングを用いたロボット超音波スキャンの学習報酬
- Authors: Michael Burke, Katie Lu, Daniel Angelov, Art\=uras Strai\v{z}ys, Craig
Innes, Kartic Subr, Subramanian Ramamoorthy
- Abstract要約: 本研究は, 内臓, 血管, 組織を適応的に観察する専門家が関与する超音波スキャンの問題点を考察する。
このような問題は、しばしば、最適化されたときに実証を模倣する計画をもたらす記法を推論することによって解決される。
報酬の高い計画の方が指数関数的に高いという重要な仮定は、ロボット工学における報酬推論の事実上のアプローチにつながる。
準最適演示が頻発する問題に対処するための代替手法を提案する。
- 参考スコア(独自算出の注目度): 17.494224125794187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses a common class of problems where a robot learns to
perform a discovery task based on example solutions, or \emph{human
demonstrations}. As an example, this work considers the problem of ultrasound
scanning, where a demonstration involves an expert adaptively searching for a
satisfactory view of internal organs, vessels or tissue and potential anomalies
while maintaining optimal contact between the probe and surface tissue. Such
problems are often solved by inferring notional \emph{rewards} that, when
optimised for, result in a plan that mimics demonstrations. A pivotal
assumption, that plans with higher reward should be exponentially more likely,
leads to the de facto approach for reward inference in robotics. While this
approach of maximum entropy inverse reinforcement learning leads to a general
and elegant formulation, it struggles to cope with frequently encountered
sub-optimal demonstrations. In this paper, we propose an alternative approach
to cope with the class of problems where sub-optimal demonstrations occur
frequently. We hypothesise that, in tasks which require discovery, successive
states of any demonstration are progressively more likely to be associated with
a higher reward. We formalise this \emph{temporal ranking} approach and show
that it improves upon maximum-entropy approaches to perform reward inference
for autonomous ultrasound scanning, a novel application of learning from
demonstration in medical imaging.
- Abstract(参考訳): 本稿では,実例に基づく探索課題をロボットが学習する一般的な問題,あるいは'emph{human demos} に対処する。
例えば、超音波スキャンの問題を考察し、実験では、プローブと表面組織との最適な接触を維持しながら、内部臓器、血管または組織および潜在的な異常を満足度の高い視点で、専門家が適応的に探索する。
このような問題は、しばしば、最適化されたときにデモを模倣する計画をもたらす記法 \emph{rewards} を推論することによって解決される。
報酬の高い計画の方が指数関数的に高いという重要な仮定は、ロボット工学における報酬推論の事実上のアプローチにつながる。
最大エントロピー逆強化学習のアプローチは一般的でエレガントな定式化につながるが、しばしば遭遇する準最適演示に対処するのに苦労する。
本稿では,準最適実証が頻繁に発生する問題に対処するための代替手法を提案する。
我々は、発見を必要とするタスクにおいて、デモンストレーションの連続した状態は、より高い報酬と関連づけられる可能性が高いと仮定する。
我々は,このemph{temporal ranking}アプローチを定式化し,医療画像における実演から学ぶ新しい応用である自律型超音波スキャンの報酬推論を行うために,最大エントロピーアプローチを改善することを示す。
関連論文リスト
- Screw Geometry Meets Bandits: Incremental Acquisition of Demonstrations to Generate Manipulation Plans [9.600625243282618]
本研究では,1回に1回に1回,十分な審美的デモンストレーションの集合を得るという課題について検討する。
実験結果から操作計画を生成するために, (i) スクリュー幾何表現を用いて, これらのオープンな問題に対処する新しい手法を提案する。
本研究は,2つの実例操作課題,すなわち注水とスクーピングに関する実験結果である。
論文 参考訳(メタデータ) (2024-10-23T20:57:56Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Shaping Rewards for Reinforcement Learning with Imperfect Demonstrations
using Generative Models [18.195406135434503]
本稿では,報酬関数を状態と行動に依存したポテンシャルに形成することにより,強化と模倣学習を組み合わせた手法を提案する。
このことは,まず探索する価値のある状態空間と行動空間の高価値領域を指定することで,政策学習を加速させることを示す。
特に、これらのポテンシャルを表現するために、正規化フローとジェネレーティブ・アドバイサル・ネットワークの両方について検討する。
論文 参考訳(メタデータ) (2020-11-02T20:32:05Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - Active Preference-Based Gaussian Process Regression for Reward Learning [42.697198807877925]
一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
論文 参考訳(メタデータ) (2020-05-06T03:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。