Fugu-MT 論文翻訳(概要): PEARL: Parallelized Expert-Assisted Reinforcement Learning for Scene Rearrangement Planning

論文の概要: PEARL: Parallelized Expert-Assisted Reinforcement Learning for Scene Rearrangement Planning

arxiv url: http://arxiv.org/abs/2105.04088v1
Date: Mon, 10 May 2021 03:27:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-11 15:00:36.520698
Title: PEARL: Parallelized Expert-Assisted Reinforcement Learning for Scene Rearrangement Planning
Title（参考訳）: pearl: シーン再配置計画のための並列化エキスパート支援強化学習
Authors: Hanqing Wang, Zan Wang, Wei Liang, Lap-Fai Yu
Abstract要約: SRP(Scene Rearrangement Planning)のための細かいアクション定義を提案し、大規模なシーン再配置データセットを導入する。また,事前知識を必要とせず,自己演奏を通してエージェントを効果的に訓練するための新しい学習パラダイムを提案する。
参考スコア（独自算出の注目度）: 28.9887381071402
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene Rearrangement Planning (SRP) is an interior task proposed recently. The previous work defines the action space of this task with handcrafted coarse-grained actions that are inflexible to be used for transforming scene arrangement and intractable to be deployed in practice. Additionally, this new task lacks realistic indoor scene rearrangement data to feed popular data-hungry learning approaches and meet the needs of quantitative evaluation. To address these problems, we propose a fine-grained action definition for SRP and introduce a large-scale scene rearrangement dataset. We also propose a novel learning paradigm to efficiently train an agent through self-playing, without any prior knowledge. The agent trained via our paradigm achieves superior performance on the introduced dataset compared to the baseline agents. We provide a detailed analysis of the design of our approach in our experiments.
Abstract（参考訳）: SRP(Scene Rearrangement Planning)は、最近提案されたインテリアタスクである。これまでの作業では,手作りの粗い粗いアクションをシーンの配置の変換に使用でき,実際に展開する難易度の高いアクションで,このタスクのアクション空間を定義していた。さらに,本課題では,一般的なデータ収集学習手法を取り入れ,定量的評価の必要性を満たすために,リアルな屋内シーン再構成データを欠いている。これらの問題に対処するために,srpの細粒度アクション定義を提案し,大規模シーン再配置データセットを提案する。また,事前知識を必要とせず,自己演奏を通してエージェントを効果的に訓練するための新しい学習パラダイムを提案する。本手法を用いて訓練したエージェントは,ベースラインエージェントと比較して,導入データセットの性能が優れている。実験では,提案手法の設計に関する詳細な分析を行った。

関連論文リスト

Retrieval Instead of Fine-tuning: A Retrieval-based Parameter Ensemble for Zero-shot Learning [22.748835458594744]
Retrievalをベースとする。 Ensemble (RPE) - ベクトル化されたデータベースを作成する新しい方法。 Low-Rank Adaptations (LoRA) RPEは、広範囲なトレーニングの必要性を最小限に抑え、ラベル付きデータの要求を排除し、特にゼロショット学習に有効である。 RPEは、生のデータにアクセスせずにモデルパラメータを変更するため、ヘルスケアのようなプライバシに敏感なドメインに適している。
論文参考訳（メタデータ） (2024-10-13T16:28:38Z)
LLM-enhanced Scene Graph Learning for Household Rearrangement [28.375701371003107]
住宅再配置作業は、場所を間違えた物体を現場に配置し、適切な場所に収容することである。我々は,シーン自体から直接,ユーザ好みのアライメントでオブジェクト機能をマイニングすることを提案する。提案手法は, 誤り検出と次の再配置計画における最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-22T03:03:04Z)
Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文参考訳（メタデータ） (2024-08-21T06:48:38Z)
Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文参考訳（メタデータ） (2024-07-09T15:45:04Z)
Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-04T15:22:54Z)
Information Guided Regularization for Fine-tuning Language Models [11.831883526217942]
我々は、よりスムーズな転写学習のために、より外科的な正規化アプローチが存在する必要があると論じる。モデル正規化の改善と下流一般化のための新しい手法を考案する。
論文参考訳（メタデータ） (2024-06-20T05:18:37Z)
Hierarchical Decomposition of Prompt-Based Continual Learning: Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。 HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文参考訳（メタデータ） (2023-10-11T06:51:46Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Lifelong Unsupervised Domain Adaptive Person Re-identification with Coordinated Anti-forgetting and Adaptation [127.6168183074427]
本稿では,LUDA (Lifelong Unsupervised Domain Adaptive) という新たなタスクを提案する。これは、モデルがターゲット環境のラベル付けされていないデータに継続的に適応する必要があるため、難しい。我々は、CLUDA-ReIDと呼ばれるこのタスクのための効果的なスキームを設計し、そこでは、アンチフォージェッティングが適応と調和して調整される。
論文参考訳（メタデータ） (2021-12-13T13:19:45Z)
Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。 RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文参考訳（メタデータ） (2020-11-19T18:47:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。