論文の概要: Attend2Pack: Bin Packing through Deep Reinforcement Learning with
Attention
- arxiv url: http://arxiv.org/abs/2107.04333v1
- Date: Fri, 9 Jul 2021 10:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 21:52:43.347935
- Title: Attend2Pack: Bin Packing through Deep Reinforcement Learning with
Attention
- Title(参考訳): attend2pack: 注意深い強化学習によるビンパッキング
- Authors: Jingwei Zhang, Bin Zi, Xiaoyu Ge
- Abstract要約: 自己アテンションに基づくエンコーディングと深層強化学習アルゴリズムに基づいて、我々は新しいエンド・ツー・エンド学習モデルを提案する。
我々は様々な実験環境において最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 12.447691231587498
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper seeks to tackle the bin packing problem (BPP) through a learning
perspective. Building on self-attention-based encoding and deep reinforcement
learning algorithms, we propose a new end-to-end learning model for this task
of interest. By decomposing the combinatorial action space, as well as
utilizing a new training technique denoted as prioritized oversampling, which
is a general scheme to speed up on-policy learning, we achieve state-of-the-art
performance in a range of experimental settings. Moreover, although the
proposed approach attend2pack targets offline-BPP, we strip our method down to
the strict online-BPP setting where it is also able to achieve state-of-the-art
performance. With a set of ablation studies as well as comparisons against a
range of previous works, we hope to offer as a valid baseline approach to this
field of study.
- Abstract(参考訳): 本稿では,学習の観点からBPP(bin packing problem)に取り組むことを目的とする。
自己注意に基づく符号化と深層強化学習アルゴリズムに基づいて,本課題に対する新たなエンドツーエンド学習モデルを提案する。
複合行動空間を分解し、また、政治学習を高速化する一般的な手法である優先オーバーサンプリングと呼ばれる新しい訓練手法を利用することで、様々な実験環境において最先端のパフォーマンスを実現する。
さらに,提案手法はオフラインBPPをターゲットにしているが,本手法は最先端の性能も達成できる厳密なオンラインBPP設定に限定する。
一連のアブレーション研究と、それ以前の一連の研究との比較により、この研究分野への有効なベースラインアプローチとして提案したい。
関連論文リスト
- An End-to-End Reinforcement Learning Based Approach for Micro-View Order-Dispatching in Ride-Hailing [8.892147201091726]
ディディにおけるエンドツーエンドの強化学習に基づく秩序分散手法を提案する。
我々はこの問題をモデル化するために2層決定プロセスフレームワークを使用し、注文代入を生成するエンコーダ-デコーダ構造ネットワークであるアンダーラインDouble underlineScalable underlineNetwork (DSN2)を提案する。
コンテキストダイナミクスを活用することで、私たちのアプローチは行動パターンに適応してパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2024-08-20T01:30:53Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Set-to-Sequence Ranking-based Concept-aware Learning Path Recommendation [49.85548436111153]
SRC(Set-to-Sequence Ranking-based Concept-Aware Learning Path Recommendation)という新しいフレームワークを提案する。
SRCは、セット・ツー・シーケンス・パラダイムの下でレコメンデーション・タスクを定式化する。
実世界の2つの公開データセットと1つの産業データセットについて広範な実験を行う。
論文 参考訳(メタデータ) (2023-06-07T08:24:44Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - Continuous Control With Ensemble Deep Deterministic Policy Gradients [3.3465375629622502]
我々は,OpenAI Gym MuJoCoの継続的制御タスクに対して,ED2(Ensemble Deep Deterministic Policy Gradients)が最先端の結果をもたらす方法を示す。
実用面では、ED2は概念的には単純で、コーディングが容易で、既存の深層強化学習ツールボックス以外の知識を必要としない。
論文 参考訳(メタデータ) (2021-11-30T13:28:13Z) - Boosting Weakly Supervised Object Detection via Learning Bounding Box
Adjusters [76.36104006511684]
高価なインスタンスレベルのオブジェクトアノテーションを避けるため、WSOD(Weakly-supervised Object Detection)が最近の話題として登場した。
我々は、よく注釈付けされた補助データセットからバウンディングボックス回帰知識を活用することにより、ローカライズ性能を向上させるための問題設定を擁護する。
提案手法は,WSOD法と知識伝達モデルに対して,同様の問題設定で良好に機能する。
論文 参考訳(メタデータ) (2021-08-03T13:38:20Z) - Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:41:00Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。