論文の概要: An Efficient Combinatorial Optimization Model Using Learning-to-Rank
Distillation
- arxiv url: http://arxiv.org/abs/2201.00695v1
- Date: Fri, 24 Dec 2021 10:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-09 13:30:51.330184
- Title: An Efficient Combinatorial Optimization Model Using Learning-to-Rank
Distillation
- Title(参考訳): ラーニング・ツー・ランク蒸留を用いた効率的な組合せ最適化モデル
- Authors: Honguk Woo, Hyunsung Lee, Sangwoo Cho
- Abstract要約: 本稿では, 高速なランク付けポリシを非定型的, 簡易なモデルに抽出可能な, 学習からランク付けへの蒸留に基づくCOPフレームワークを提案する。
具体的には、近似されたランキング蒸留を用いて、勾配降下によるスコアベースランキングモデルを学習可能にする。
蒸留されたモデルは, それぞれの高性能RLに匹敵する性能を達成できるが, 数倍高速な推算も可能であることを実証する。
- 参考スコア(独自算出の注目度): 2.0137632982900207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep reinforcement learning (RL) has proven its feasibility in
solving combinatorial optimization problems (COPs). The learning-to-rank
techniques have been studied in the field of information retrieval. While
several COPs can be formulated as the prioritization of input items, as is
common in the information retrieval, it has not been fully explored how the
learning-to-rank techniques can be incorporated into deep RL for COPs. In this
paper, we present the learning-to-rank distillation-based COP framework, where
a high-performance ranking policy obtained by RL for a COP can be distilled
into a non-iterative, simple model, thereby achieving a low-latency COP solver.
Specifically, we employ the approximated ranking distillation to render a
score-based ranking model learnable via gradient descent. Furthermore, we use
the efficient sequence sampling to improve the inference performance with a
limited delay. With the framework, we demonstrate that a distilled model not
only achieves comparable performance to its respective, high-performance RL,
but also provides several times faster inferences. We evaluate the framework
with several COPs such as priority-based task scheduling and multidimensional
knapsack, demonstrating the benefits of the framework in terms of inference
latency and performance.
- Abstract(参考訳): 近年,複合最適化問題(COP)の解法として深部強化学習(RL)が実現可能であることが証明されている。
本手法は情報検索の分野で研究されている。
いくつかのCOPは入力項目の優先順位付けとして定式化できるが、情報検索でよく見られるように、COPの深部RLにどのように学習から階級への技法を組み込むかは、完全には解明されていない。
本稿では、COPのRLにより得られる高性能なランク付けポリシーを非定位単純モデルに蒸留し、低遅延COPソルバを実現するための、学習からランクへの蒸留に基づくCOPフレームワークを提案する。
具体的には、近似されたランキング蒸留を用いて、勾配降下によるスコアベースランキングモデルを学習可能にする。
さらに,効率的なシーケンスサンプリングを用いて,遅延の少ない推論性能を向上させる。
このフレームワークを用いて,蒸留モデルがそれぞれの高性能RLに匹敵する性能を得るだけでなく,数倍高速な推算を行うことを示した。
優先度に基づくタスクスケジューリングや多次元knapsackなど,複数のCOPを用いてフレームワークの評価を行い,推論遅延と性能の観点からフレームワークの利点を実証した。
関連論文リスト
- Distilling Vision-Language Pretraining for Efficient Cross-Modal Retrieval [44.61221990245263]
ハッシュの学習は、高速な検索速度と低ストレージコストを提供する、効率的な検索のための実用的なソリューションである。
本研究は, 学習能力の向上と, 強力な事前学習モデルの普及を両立させる可能性を探るものである。
ハッシュ表現学習を改善するために,DCMQ (Distillation for Cross-Modal Quantization) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T15:54:59Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
論文 参考訳(メタデータ) (2022-12-27T06:42:26Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - A Reinforcement Learning Environment For Job-Shop Scheduling [2.036811219647753]
本稿では,ジョブショップスケジューリングのための高効率深層強化学習環境を提案する。
我々は、有意義でコンパクトな状態表現と、新しい単純な密集した報酬関数を設計する。
本手法が従来のベンチマークインスタンスにおける既存のDRLメソッドを大幅に上回ることを実証した。
論文 参考訳(メタデータ) (2021-04-08T13:26:30Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Monocular Depth Estimation via Listwise Ranking using the Plackett-Luce
Model [15.472533971305367]
多くの実世界のアプリケーションでは、画像内の物体の相対的な深さがシーン理解に不可欠である。
近年のアプローチでは, この問題を回帰課題として扱うことにより, 単眼画像の深度予測の問題に対処している。
しかし、ランク付け手法は回帰の自然な代替として自らを示唆しており、実際、ペア比較を利用したランク付け手法はこの問題に対して有望な性能を示している。
論文 参考訳(メタデータ) (2020-10-25T13:40:10Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。