論文の概要: Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks
- arxiv url: http://arxiv.org/abs/2210.06601v1
- Date: Wed, 12 Oct 2022 21:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:07:17.231887
- Title: Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks
- Title(参考訳): 失語障害を伴う一般化:バイスモータタスク学習のためのブロードオフラインデータを活用する
- Authors: Kuan Fang, Patrick Yin, Ashvin Nair, Homer Walke, Gengchen Yan, Sergey
Levine
- Abstract要約: 本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
- 参考スコア(独自算出の注目度): 65.23947618404046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The utilization of broad datasets has proven to be crucial for generalization
for a wide range of fields. However, how to effectively make use of diverse
multi-task data for novel downstream tasks still remains a grand challenge in
robotics. To tackle this challenge, we introduce a framework that acquires
goal-conditioned policies for unseen temporally extended tasks via offline
reinforcement learning on broad data, in combination with online fine-tuning
guided by subgoals in learned lossy representation space. When faced with a
novel task goal, the framework uses an affordance model to plan a sequence of
lossy representations as subgoals that decomposes the original task into easier
problems. Learned from the broad data, the lossy representation emphasizes
task-relevant information about states and goals while abstracting away
redundant contexts that hinder generalization. It thus enables subgoal planning
for unseen tasks, provides a compact input to the policy, and facilitates
reward shaping during fine-tuning. We show that our framework can be
pre-trained on large-scale datasets of robot experiences from prior work and
efficiently fine-tuned for novel tasks, entirely from visual inputs without any
manual reward engineering.
- Abstract(参考訳): 幅広いデータセットの利用は、幅広い分野の一般化に不可欠であることが証明されている。
しかし、新しい下流タスクに多様なマルチタスクデータを効果的に利用する方法は、ロボティクスにおいて依然として大きな課題である。
この課題に取り組むために,幅広いデータに対するオフライン強化学習と,学習損失表現空間におけるサブゴールによるオンライン微調整を組み合わせることで,時間的拡張課題に対する目標条件付きポリシーを取得する枠組みを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
広義のデータから学習した損失表現は、状態と目標に関するタスク関連情報を強調し、一般化を妨げる冗長なコンテキストを抽象化する。
これにより、目に見えないタスクのサブゴール計画を可能にし、ポリシーへのコンパクトな入力を提供し、微調整時の報酬形成を容易にする。
我々は,ロボット体験の大規模データセットを事前学習し,手作業による報酬を必要とせず,視覚入力から新たなタスクを効率的に調整できることを実証する。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Disentangling Policy from Offline Task Representation Learning via
Adversarial Data Augmentation [29.49883684368039]
オフラインメタ強化学習(OMRL)は、静的データセットに依存して、エージェントが新しいタスクに取り組むことができる。
本稿では,タスク表現学習から行動ポリシーの影響を解き放つ新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-12T02:38:36Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Disentangled Latent Spaces Facilitate Data-Driven Auxiliary Learning [15.41342100228504]
ディープラーニングでは、データが不足している状況での学習を容易にするために補助的な目的がしばしば使用される。
Detauxと呼ばれる新しいフレームワークを提案し、非関係な新しい分類タスクを見つけるために、弱い教師付き非絡み込み手順を用いている。
論文 参考訳(メタデータ) (2023-10-13T17:40:39Z) - CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code
Models [33.78307982736911]
クロスタスクの一般化は強力な研究と応用価値である。
既存の216のコード関連タスクを含む大規模ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-08T13:04:52Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Auxiliary Task Update Decomposition: The Good, The Bad and The Neutral [18.387162887917164]
補助的タスク勾配のきめ細かい操作を行うモデルに依存しないフレームワークを定式化する。
そこで本研究では,タスクの損失を軽減・ダメージ・回避する方向に補助的な更新を分解することを提案する。
テキストと画像の分類タスクのアウト・オブ・ディストリビューションデータを活用する場合,我々のアプローチは一貫して,強靭で広く使用されているベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-08-25T17:09:48Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。