論文の概要: PEARL: Parallelized Expert-Assisted Reinforcement Learning for Scene
Rearrangement Planning
- arxiv url: http://arxiv.org/abs/2105.04088v1
- Date: Mon, 10 May 2021 03:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:00:36.520698
- Title: PEARL: Parallelized Expert-Assisted Reinforcement Learning for Scene
Rearrangement Planning
- Title(参考訳): pearl: シーン再配置計画のための並列化エキスパート支援強化学習
- Authors: Hanqing Wang, Zan Wang, Wei Liang, Lap-Fai Yu
- Abstract要約: SRP(Scene Rearrangement Planning)のための細かいアクション定義を提案し、大規模なシーン再配置データセットを導入する。
また,事前知識を必要とせず,自己演奏を通してエージェントを効果的に訓練するための新しい学習パラダイムを提案する。
- 参考スコア(独自算出の注目度): 28.9887381071402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Rearrangement Planning (SRP) is an interior task proposed recently. The
previous work defines the action space of this task with handcrafted
coarse-grained actions that are inflexible to be used for transforming scene
arrangement and intractable to be deployed in practice. Additionally, this new
task lacks realistic indoor scene rearrangement data to feed popular
data-hungry learning approaches and meet the needs of quantitative evaluation.
To address these problems, we propose a fine-grained action definition for SRP
and introduce a large-scale scene rearrangement dataset. We also propose a
novel learning paradigm to efficiently train an agent through self-playing,
without any prior knowledge. The agent trained via our paradigm achieves
superior performance on the introduced dataset compared to the baseline agents.
We provide a detailed analysis of the design of our approach in our
experiments.
- Abstract(参考訳): SRP(Scene Rearrangement Planning)は、最近提案されたインテリアタスクである。
これまでの作業では,手作りの粗い粗いアクションをシーンの配置の変換に使用でき,実際に展開する難易度の高いアクションで,このタスクのアクション空間を定義していた。
さらに,本課題では,一般的なデータ収集学習手法を取り入れ,定量的評価の必要性を満たすために,リアルな屋内シーン再構成データを欠いている。
これらの問題に対処するために,srpの細粒度アクション定義を提案し,大規模シーン再配置データセットを提案する。
また,事前知識を必要とせず,自己演奏を通してエージェントを効果的に訓練するための新しい学習パラダイムを提案する。
本手法を用いて訓練したエージェントは,ベースラインエージェントと比較して,導入データセットの性能が優れている。
実験では,提案手法の設計に関する詳細な分析を行った。
関連論文リスト
- Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of
Instructional Videos [17.307018506906]
本稿では,エージェントが行動手順を論理的に構築し,戦略的手続き計画を構築する能力について考察する。
この計画は、実生活の指導ビデオに示されているように、初期視覚観察から対象視結果へのナビゲートに不可欠である。
我々は,学習データから抽出した確率論的手続き的知識グラフを利用する,知識向上型プロジェクションプランニングシステムKEPPを提案する。
論文 参考訳(メタデータ) (2024-03-05T08:55:51Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Consecutive Pretraining: A Knowledge Transfer Learning Strategy with
Relevant Unlabeled Data for Remote Sensing Domain [25.84756140221655]
自然言語処理(NLP)における事前学習を停止しないという考え方に基づいて,CSPT(ConSecutive PreTraining)を提案する。
提案したCSPTは、タスク対応モデルトレーニングのためのラベルなしデータの巨大な可能性を公開することもできる。
その結果,提案したCSPTをタスク認識モデルトレーニングに活用することにより,従来の教師付きプレトレーニング-then-fine-tuning法よりもRTDのダウンストリームタスクのほとんどを上回り得ることがわかった。
論文 参考訳(メタデータ) (2022-07-08T12:32:09Z) - Lifelong Unsupervised Domain Adaptive Person Re-identification with
Coordinated Anti-forgetting and Adaptation [127.6168183074427]
本稿では,LUDA (Lifelong Unsupervised Domain Adaptive) という新たなタスクを提案する。
これは、モデルがターゲット環境のラベル付けされていないデータに継続的に適応する必要があるため、難しい。
我々は、CLUDA-ReIDと呼ばれるこのタスクのための効果的なスキームを設計し、そこでは、アンチフォージェッティングが適応と調和して調整される。
論文 参考訳(メタデータ) (2021-12-13T13:19:45Z) - Auxiliary Task Update Decomposition: The Good, The Bad and The Neutral [18.387162887917164]
補助的タスク勾配のきめ細かい操作を行うモデルに依存しないフレームワークを定式化する。
そこで本研究では,タスクの損失を軽減・ダメージ・回避する方向に補助的な更新を分解することを提案する。
テキストと画像の分類タスクのアウト・オブ・ディストリビューションデータを活用する場合,我々のアプローチは一貫して,強靭で広く使用されているベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-08-25T17:09:48Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。