論文の概要: A Memory-Related Multi-Task Method Based on Task-Agnostic Exploration
- arxiv url: http://arxiv.org/abs/2209.04100v1
- Date: Fri, 9 Sep 2022 03:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 12:39:45.851790
- Title: A Memory-Related Multi-Task Method Based on Task-Agnostic Exploration
- Title(参考訳): タスク非依存探索に基づくメモリ関連マルチタスク手法
- Authors: Xianqi Zhang, Xingtao Wang, Xu Liu, Xiaopeng Fan and Debin Zhao
- Abstract要約: 模倣学習とは対照的に、専門家データはなく、環境探索を通じて収集されたデータのみである。
新しいタスクを解くためのアクションシーケンスは、複数のトレーニングタスクの軌道セグメントの組み合わせである可能性があるため、テストタスクと解決戦略は、トレーニングデータに直接存在しない。
本稿では,メモリ関連マルチタスク手法(M3)を提案する。
- 参考スコア(独自算出の注目度): 26.17597857264231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We pose a new question: Can agents learn how to combine actions from previous
tasks to complete new tasks, just as humans? In contrast to imitation learning,
there is no expert data, only the data collected through environmental
exploration. Compared with offline reinforcement learning, the problem of data
distribution shift is more serious. Since the action sequence to solve the new
task may be the combination of trajectory segments of multiple training tasks,
in other words, the test task and the solving strategy do not exist directly in
the training data. This makes the problem more difficult. We propose a
Memory-related Multi-task Method (M3) to address this problem. The method
consists of three stages. First, task-agnostic exploration is carried out to
collect data. Different from previous methods, we organize the exploration data
into a knowledge graph. We design a model based on the exploration data to
extract action effect features and save them in memory, while an action
predictive model is trained. Secondly, for a new task, the action effect
features stored in memory are used to generate candidate actions by a feature
decomposition-based approach. Finally, a multi-scale candidate action pool and
the action predictive model are fused to generate a strategy to complete the
task. Experimental results show that the performance of our proposed method is
significantly improved compared with the baseline.
- Abstract(参考訳): エージェントは、人間のように、以前のタスクからアクションを組み合わせて新しいタスクを完遂する方法を学ぶことができますか?
模倣学習とは対照的に、専門家データはなく、環境探索を通じて収集されたデータのみである。
オフラインの強化学習と比較して、データ分散シフトの問題は深刻である。
新しいタスクを解決するアクションシーケンスは、複数のトレーニングタスクの軌道セグメントの組み合わせであるかもしれないので、つまり、トレーニングデータに直接テストタスクと解決戦略が存在しない。
これにより問題はより難しくなる。
本稿では,メモリ関連マルチタスク手法(M3)を提案する。
方法は3段階からなる。
まず、データ収集のためにタスクに依存しない探索を行う。
従来の手法とは違って,探索データを知識グラフに整理する。
我々は,行動予測モデルを訓練しながら,行動効果の特徴を抽出し,記憶に保存する探索データに基づくモデルを設計する。
第二に、新しいタスクでは、メモリに格納されたアクションエフェクト機能を使用して、特徴分解に基づくアプローチで候補アクションを生成する。
最後に、マルチスケール候補アクションプールとアクション予測モデルを融合させてタスクを完了させる戦略を生成する。
実験の結果,提案手法の性能はベースラインと比較して有意に向上した。
関連論文リスト
- Reducing catastrophic forgetting of incremental learning in the absence of rehearsal memory with task-specific token [0.6144680854063939]
ディープラーニングモデルは、新しいデータを継続的に学習する際に破滅的な忘れを見せる。
本稿では,従来のデータを保存することなく,過去の知識を保存できる新しい手法を提案する。
この方法は視覚変換器のアーキテクチャにインスパイアされ、各タスクの圧縮された知識をカプセル化できるユニークなトークンを使用する。
論文 参考訳(メタデータ) (2024-11-06T16:13:50Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Divide and Conquer: Hybrid Pre-training for Person Search [40.13016375392472]
本研究では,サブタスクデータのみを用いた人物検索のためのハイブリッド事前学習フレームワークを提案する。
我々のモデルは、人物探索法、微調整データ、事前学習データ、モデルバックボーンなど、多様なプロトコルで大幅に改善できる。
私たちのコードと事前訓練されたモデルは、人検索コミュニティにプラグイン・アンド・プレイの使用のためにリリースされます。
論文 参考訳(メタデータ) (2023-12-13T08:33:50Z) - Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled
Datasets [73.2096288987301]
オフラインでラベル付けされていないデータセットから、少量のダウンストリーム専門家データを用いて、関連する振る舞いを選択的にクエリする簡単なアプローチを提案する。
提案手法では,タスクへの関連する遷移のみを問合せし,サブ最適データやタスク非関連データをフィルタリングする。
我々の単純なクエリ手法は、画像からシミュレーションされた実際のロボット操作タスクに対して、より複雑な目標条件の手法よりも20%優れています。
論文 参考訳(メタデータ) (2023-04-18T05:42:53Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Instance-Level Task Parameters: A Robust Multi-task Weighting Framework [17.639472693362926]
最近の研究によると、ディープニューラルネットワークは、複数の関連するタスク間で共有表現を学習することで、マルチタスク学習の恩恵を受けている。
トレーニングプロセスは、データセットの各インスタンスに対するタスクの最適な重み付けを規定します。
我々は,SURREALとCityScapesのデータセットを用いて,人間の形状とポーズ推定,深さ推定,セマンティックセグメンテーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-06-11T02:35:42Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。