Fugu-MT 論文翻訳(概要): FlowRetrieval: Flow-Guided Data Retrieval for Few-Shot Imitation Learning

論文の概要: FlowRetrieval: Flow-Guided Data Retrieval for Few-Shot Imitation Learning

arxiv url: http://arxiv.org/abs/2408.16944v2
Date: Fri, 11 Oct 2024 07:17:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 04:08:49.198647
Title: FlowRetrieval: Flow-Guided Data Retrieval for Few-Shot Imitation Learning
Title（参考訳）: FlowRetrieval:Few-Shot Imitation LearningのためのFlow-Guided Data Retrieval
Authors: Li-Heng Lin, Yuchen Cui, Amber Xie, Tianyu Hua, Dorsa Sadigh,
Abstract要約: 擬似学習は、与えられた下流タスクに対するポリシーを効率的に適応するために、少数のタスク固有のデモンストレーションにのみ依存する。本稿では,従来のデータから目標タスクに類似した動作を抽出するために,光フロー表現を利用するFlowRetrievalを提案する。その結果,FlowRetrievalは,シミュレーションや実世界のドメイン間で,従来の手法よりも大幅に優れていた。
参考スコア（独自算出の注目度）: 28.523528119584526
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Few-shot imitation learning relies on only a small amount of task-specific demonstrations to efficiently adapt a policy for a given downstream tasks. Retrieval-based methods come with a promise of retrieving relevant past experiences to augment this target data when learning policies. However, existing data retrieval methods fall under two extremes: they either rely on the existence of exact behaviors with visually similar scenes in the prior data, which is impractical to assume; or they retrieve based on semantic similarity of high-level language descriptions of the task, which might not be that informative about the shared low-level behaviors or motions across tasks that is often a more important factor for retrieving relevant data for policy learning. In this work, we investigate how we can leverage motion similarity in the vast amount of cross-task data to improve few-shot imitation learning of the target task. Our key insight is that motion-similar data carries rich information about the effects of actions and object interactions that can be leveraged during few-shot adaptation. We propose FlowRetrieval, an approach that leverages optical flow representations for both extracting similar motions to target tasks from prior data, and for guiding learning of a policy that can maximally benefit from such data. Our results show FlowRetrieval significantly outperforms prior methods across simulated and real-world domains, achieving on average 27% higher success rate than the best retrieval-based prior method. In the Pen-in-Cup task with a real Franka Emika robot, FlowRetrieval achieves 3.7x the performance of the baseline imitation learning technique that learns from all prior and target data. Website: https://flow-retrieval.github.io
Abstract（参考訳）: 擬似学習は、与えられた下流タスクに対するポリシーを効率的に適応するために、少数のタスク固有のデモンストレーションにのみ依存する。検索ベースのメソッドには,関連する過去の経験を検索して,ポリシ学習時に対象データを拡張する,という約束がある。しかし、既存のデータ検索手法は2つの極端に該当する。それらは、前提に適さない事前データにおいて視覚的に類似したシーンを持つ正確な行動の存在に依存するか、あるいはタスクの高レベルの言語記述のセマンティックな類似性に基づいて検索する。本研究では,多量のタスクデータにおける動きの類似性を利用して,目的タスクの少数の模倣学習を改善する方法について検討する。私たちのキーとなる洞察は、モーション類似データには、アクションとオブジェクトの相互作用の影響についての豊富な情報があり、それは、数発の適応で活用できるということだ。本稿では,従来のデータから類似した動作を抽出すると同時に,そのようなデータから最大限の利益を得ることのできるポリシの学習を指導するために,光フロー表現を利用したFlowRetrievalを提案する。その結果、FlowRetrievalは、シミュレーションや実世界のドメイン間で先行手法よりも優れており、最高の検索ベースの先行手法よりも平均27%高い成功率を実現していることがわかった。実のFranka EmikaロボットによるPen-in-Cupタスクにおいて、FlowRetrievalは、すべての事前および対象データから学習するベースライン模倣学習技術の性能を3.7倍に向上させる。 Webサイト: https://flow-retrieval.github.io

関連論文リスト

ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled Datasets [73.2096288987301]
オフラインでラベル付けされていないデータセットから、少量のダウンストリーム専門家データを用いて、関連する振る舞いを選択的にクエリする簡単なアプローチを提案する。提案手法では,タスクへの関連する遷移のみを問合せし,サブ最適データやタスク非関連データをフィルタリングする。我々の単純なクエリ手法は、画像からシミュレーションされた実際のロボット操作タスクに対して、より複雑な目標条件の手法よりも20%優れています。
論文参考訳（メタデータ） (2023-04-18T05:42:53Z)
Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。我々のアプローチは、意図をモデル化することで受動的データから学習する。実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文参考訳（メタデータ） (2023-04-10T17:59:05Z)
Selective In-Context Data Augmentation for Intent Detection using Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文参考訳（メタデータ） (2023-02-10T07:37:49Z)
An Exploration of Data Efficiency in Intra-Dataset Task Transfer for Dialog Understanding [65.75873687351553]
本研究は,対話領域における逐次移動学習における目標タスク訓練データ量の影響について検討する。非意図的に、我々のデータでは、タスクトレーニングデータのサイズを目標とする場合、シーケンシャルトランスファーラーニングがトランスファーラーニングなしで同じモデルと比較した場合、最小限の効果が示される。
論文参考訳（メタデータ） (2022-10-21T04:36:46Z)
A Memory-Related Multi-Task Method Based on Task-Agnostic Exploration [26.17597857264231]
模倣学習とは対照的に、専門家データはなく、環境探索を通じて収集されたデータのみである。新しいタスクを解くためのアクションシーケンスは、複数のトレーニングタスクの軌道セグメントの組み合わせである可能性があるため、テストタスクと解決戦略は、トレーニングデータに直接存在しない。本稿では,メモリ関連マルチタスク手法(M3)を提案する。
論文参考訳（メタデータ） (2022-09-09T03:02:49Z)
Self-Supervised Human Activity Recognition with Localized Time-Frequency Contrastive Representation Learning [16.457778420360537]
スマートフォン加速度計データを用いた人間行動認識のための自己教師付き学習ソリューションを提案する。加速度計信号から強い表現を学習し,クラスラベルへの依存度を低減させるモデルを開発した。提案手法の性能をMotionSense, HAPT, HHARの3つのデータセットで評価した。
論文参考訳（メタデータ） (2022-08-26T22:47:18Z)
Finding Significant Features for Few-Shot Learning using Dimensionality Reduction [0.0]
このモジュールは、計量学習法により与えられる類似度関数を、分類のためのより識別的な特徴を持つようにすることで、精度の向上を支援する。提案手法は,MiniImageNetデータセットにおけるメトリック学習ベースラインの精度を約2%向上させる。
論文参考訳（メタデータ） (2021-07-06T16:36:57Z)
Efficient Self-Supervised Data Collection for Offline Robot Learning [17.461103383630853]
ロボット強化学習の実用的なアプローチは、まずリアルまたはシミュレートされたロボット相互作用データの大規模なバッチを収集することです。我々は,新しい観測結果にデータ収集を積極的に焦点をあてる,簡便な目標条件強化学習法を開発した。
論文参考訳（メタデータ） (2021-05-10T18:42:58Z)
Probabilistic Active Meta-Learning [15.432006404678981]
先行経験に基づくタスク選択をメタ学習アルゴリズムに導入する。シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。
論文参考訳（メタデータ） (2020-07-17T12:51:42Z)
Meta-Reinforcement Learning Robust to Distributional Shift via Model Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文参考訳（メタデータ） (2020-06-12T13:34:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。