論文の概要: Task-Agnostic Learning to Accomplish New Tasks
- arxiv url: http://arxiv.org/abs/2209.04100v3
- Date: Sun, 27 Apr 2025 09:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.431405
- Title: Task-Agnostic Learning to Accomplish New Tasks
- Title(参考訳): 新しいタスクを補完するタスク非依存学習
- Authors: Xianqi Zhang, Xingtao Wang, Xu Liu, Wenrui Wang, Xiaopeng Fan, Debin Zhao,
- Abstract要約: 本稿では,タスクに依存しないデータからのみ断片化された知識を学習し,新しいタスクを実現するタスク非依存学習法(TAL)を提案する。
まず、環境との相互作用からデータを収集するタスク非依存探索を行う。
第2に,タスクに依存しない断片化知識学習のための知識グラフデータを用いて,行動特徴抽出器を提案し,訓練する。
第3に、候補アクション生成器を設計し、新しいタスクにアクション特徴抽出器を適用して複数の候補アクションセットを生成する。
- 参考スコア(独自算出の注目度): 25.8071239305578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) and Imitation Learning (IL) have made great progress in robotic decision-making in recent years. However, these methods show obvious deterioration for new tasks that need to be completed through new combinations of actions. RL methods suffer from reward functions and distribution shifts, while IL methods are limited by expert demonstrations which do not cover new tasks. In contrast, humans can easily complete these tasks with the fragmented knowledge learned from task-agnostic experience. Inspired by this observation, this paper proposes a task-agnostic learning method (TAL for short) that can learn fragmented knowledge only from task-agnostic data to accomplish new tasks. TAL consists of four stages. First, the task-agnostic exploration is performed to collect data from interactions with the environment. The collected data is organized via a knowledge graph. Second, an action feature extractor is proposed and trained using the collected knowledge graph data for task-agnostic fragmented knowledge learning. Third, a candidate action generator is designed, which applies the action feature extractor on a new task to generate multiple candidate action sets. Finally, an action proposal network is designed to produce the probabilities for actions in a new task according to the environmental information. The probabilities are then used to generate order information for selecting actions to be executed from multiple candidate action sets to form the plan. Experiments on a virtual indoor scene show that the proposed method outperforms the state-of-the-art offline RL methods and IL methods by more than 20%.
- Abstract(参考訳): 近年,ロボットによる意思決定において,強化学習(RL)と模倣学習(IL)が大きな進歩を遂げている。
しかし、これらの手法は、新しいアクションの組み合わせによって完了する必要がある新しいタスクに対して明らかな劣化を示す。
RL法は報酬関数と分配シフトに悩まされ、IL法は新しいタスクをカバーしない専門家によるデモンストレーションによって制限される。
対照的に、人間はタスクに依存しない経験から学んだ断片化された知識で、これらのタスクを簡単に完了することができる。
本稿では,タスクに依存しないデータからのみ断片化された知識を学習し,新しいタスクを達成できるタスク非依存学習法(TAL)を提案する。
メタルは4つのステージから構成される。
まず、環境との相互作用からデータを収集するタスク非依存探索を行う。
収集されたデータは知識グラフを介して整理される。
第2に,タスクに依存しない断片化知識学習のための知識グラフデータを用いて,行動特徴抽出器を提案し,訓練する。
第3に、候補アクション生成器を設計し、新しいタスクにアクション特徴抽出器を適用して複数の候補アクションセットを生成する。
最後に、環境情報に応じて、新たなタスクにおける行動の確率を生成するように、行動提案ネットワークを設計する。
次に、複数の候補アクションセットから実行すべきアクションを選択するための順序情報を生成するために、確率が使用される。
仮想屋内シーンにおける実験により,提案手法は最先端のオフラインRL法とIL法を20%以上上回る性能を示した。
関連論文リスト
- Dense Dynamics-Aware Reward Synthesis: Integrating Prior Experience with Demonstrations [24.041217922654738]
連続制御問題はスパース・リワード強化学習(RL)タスクとして定式化することができる。
オンラインRLメソッドは、各新しいタスクを解決するために、状態空間を自動的に探索することができる。
しかしながら、非ゼロ報酬につながる行動列の発見は、タスクの水平線が増加するにつれて指数関数的に難しくなる。
本稿では,1)タスク非依存の事前データセットに含まれる情報を抽出し,2)少数のタスク固有の専門家によるデモンストレーションを行う,体系的な報酬形成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-02T04:37:12Z) - Reducing catastrophic forgetting of incremental learning in the absence of rehearsal memory with task-specific token [0.6144680854063939]
ディープラーニングモデルは、新しいデータを継続的に学習する際に破滅的な忘れを見せる。
本稿では,従来のデータを保存することなく,過去の知識を保存できる新しい手法を提案する。
この方法は視覚変換器のアーキテクチャにインスパイアされ、各タスクの圧縮された知識をカプセル化できるユニークなトークンを使用する。
論文 参考訳(メタデータ) (2024-11-06T16:13:50Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Divide and Conquer: Hybrid Pre-training for Person Search [40.13016375392472]
本研究では,サブタスクデータのみを用いた人物検索のためのハイブリッド事前学習フレームワークを提案する。
我々のモデルは、人物探索法、微調整データ、事前学習データ、モデルバックボーンなど、多様なプロトコルで大幅に改善できる。
私たちのコードと事前訓練されたモデルは、人検索コミュニティにプラグイン・アンド・プレイの使用のためにリリースされます。
論文 参考訳(メタデータ) (2023-12-13T08:33:50Z) - Subspace Adaptation Prior for Few-Shot Learning [5.2997197698288945]
Subspace Adaptation Priorは、勾配に基づく新しいメタ学習アルゴリズムである。
SAPは, 画像分類設定において, 優位性, 競争性に優れることを示す。
論文 参考訳(メタデータ) (2023-10-13T11:40:18Z) - Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled
Datasets [73.2096288987301]
オフラインでラベル付けされていないデータセットから、少量のダウンストリーム専門家データを用いて、関連する振る舞いを選択的にクエリする簡単なアプローチを提案する。
提案手法では,タスクへの関連する遷移のみを問合せし,サブ最適データやタスク非関連データをフィルタリングする。
我々の単純なクエリ手法は、画像からシミュレーションされた実際のロボット操作タスクに対して、より複雑な目標条件の手法よりも20%優れています。
論文 参考訳(メタデータ) (2023-04-18T05:42:53Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Instance-Level Task Parameters: A Robust Multi-task Weighting Framework [17.639472693362926]
最近の研究によると、ディープニューラルネットワークは、複数の関連するタスク間で共有表現を学習することで、マルチタスク学習の恩恵を受けている。
トレーニングプロセスは、データセットの各インスタンスに対するタスクの最適な重み付けを規定します。
我々は,SURREALとCityScapesのデータセットを用いて,人間の形状とポーズ推定,深さ推定,セマンティックセグメンテーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-06-11T02:35:42Z) - TAG: Task-based Accumulated Gradients for Lifelong learning [21.779858050277475]
タスク間の関連性に基づいて学習率を適応させるタスク認識システムを提案する。
提案する適応学習率は, 破滅的な記憶の喪失だけでなく, 正の後方移動にも寄与することを示した。
論文 参考訳(メタデータ) (2021-05-11T16:10:32Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。