論文の概要: SORREL: Suboptimal-Demonstration-Guided Reinforcement Learning for Learning to Branch
- arxiv url: http://arxiv.org/abs/2412.15534v1
- Date: Fri, 20 Dec 2024 03:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:20.205920
- Title: SORREL: Suboptimal-Demonstration-Guided Reinforcement Learning for Learning to Branch
- Title(参考訳): SORREL: 分岐学習のための準最適化指導型強化学習
- Authors: Shengyu Feng, Yiming Yang,
- Abstract要約: 混合線形プログラム(MILP)は、主に分岐サンプリング・アンド・バウンド(B&B)アルゴリズムに基づいて構築される。
本稿では,分枝学習のためのSORREL(Sub-Optimal-Demonstration-Reinforcement Learning)を提案する。
- 参考スコア(独自算出の注目度): 33.90726769113883
- License:
- Abstract: Mixed Integer Linear Program (MILP) solvers are mostly built upon a Branch-and-Bound (B\&B) algorithm, where the efficiency of traditional solvers heavily depends on hand-crafted heuristics for branching. The past few years have witnessed the increasing popularity of data-driven approaches to automatically learn these heuristics. However, the success of these methods is highly dependent on the availability of high-quality demonstrations, which requires either the development of near-optimal heuristics or a time-consuming sampling process. This paper averts this challenge by proposing Suboptimal-Demonstration-Guided Reinforcement Learning (SORREL) for learning to branch. SORREL selectively learns from suboptimal demonstrations based on value estimation. It utilizes suboptimal demonstrations through both offline reinforcement learning on the demonstrations generated by suboptimal heuristics and self-imitation learning on past good experiences sampled by itself. Our experiments demonstrate its advanced performance in both branching quality and training efficiency over previous methods for various MILPs.
- Abstract(参考訳): Mixed Integer Linear Program (MILP) は主にブランチ・アンド・バウンド (B\&B) アルゴリズムに基づいて構築されており、従来の解法の効率は分岐のための手作りのヒューリスティックに大きく依存している。
過去数年間、これらのヒューリスティックを自動学習するデータ駆動アプローチの人気が高まっているのを目撃してきた。
しかし、これらの手法の成功は、最適に近いヒューリスティックの開発や、時間を要するサンプリングプロセスのどちらかを必要とする高品質なデモンストレーションの可用性に大きく依存している。
本稿では,この課題を回避するために,SORREL(Suboptimal-Demonstration-Guided Reinforcement Learning)を提案する。
SORRELは、値推定に基づいて、最適以下の実演から選択的に学習する。
準最適ヒューリスティックス(英語版)が生み出したデモに対するオフライン強化学習と、自身でサンプリングした過去の良い経験に基づく自己刺激学習の両方を通じて、準最適デモを利用する。
本実験は,従来のMILP法よりも分岐品質と訓練効率の両面で高い性能を示すものである。
関連論文リスト
- Comparative Analysis of Demonstration Selection Algorithms for LLM In-Context Learning [18.58278188791548]
コンテキスト内学習は、LLM(Large Language Models)が追加のトレーニングなしで新しいタスクを適応するのに役立ちます。
提案された実演選択アルゴリズムにもかかわらず、効率と有効性はまだ不明である。
この明快さの欠如は、これらのアルゴリズムを現実世界のシナリオに適用することを困難にしている。
論文 参考訳(メタデータ) (2024-10-30T15:11:58Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - CAMBranch: Contrastive Learning with Augmented MILPs for Branching [5.216027167816416]
本稿では,従来のMILPから限られた専門家データに可変シフトを適用することで,AMILP(Augmented MILP)を生成するフレームワークを提案する。
結果は、完全なデータセットの10%しかトレーニングされていないCAMBranchが、優れたパフォーマンスを示していることを示している。
論文 参考訳(メタデータ) (2024-02-06T02:47:16Z) - Inverse Reinforcement Learning by Estimating Expertise of Demonstrators [15.662820454886205]
IRLEED(Inverse Reinforcement Learning by Estimating Expertise of Demonstrators)は、実証者の専門知識の事前知識なしにハードルを克服する新しいフレームワークである。
IRLEEDは既存の逆強化学習(IRL)アルゴリズムを強化し、報酬バイアスと行動分散に対処するために、実証者準最適性のための一般的なモデルを組み合わせる。
オンラインおよびオフラインのIL設定、シミュレーションと人為的なデータによる実験は、IRLEEDの適応性と有効性を示している。
論文 参考訳(メタデータ) (2024-02-02T20:21:09Z) - Leveraging Demonstrations to Improve Online Learning: Quality Matters [54.98983862640944]
改善の度合いは実演データの品質に左右されることが示されている。
ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T08:49:12Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。