論文の概要: Imitation Learning for Combinatorial Optimisation under Uncertainty
- arxiv url: http://arxiv.org/abs/2601.05383v1
- Date: Thu, 08 Jan 2026 21:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.774174
- Title: Imitation Learning for Combinatorial Optimisation under Uncertainty
- Title(参考訳): 不確実性下における組合せ最適化のための模倣学習
- Authors: Prakash Gawas, Antoine Legrain, Louis-Martin Rousseau,
- Abstract要約: 本稿では,不確実性の下でのIL最適化の専門家の系統分類について紹介する。
専門家は, 筋力, 決定性, フル情報, 2段階, 多段階の定式化, 最適性のレベル, タスク最適, 近似的エキスパートの識別, 学習者とのインタラクションモード, ワンショットの監督から反復的, インタラクティブなスキームまで, の3つの次元に沿って分類される。
- 参考スコア(独自算出の注目度): 1.0781866671930855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning (IL) provides a data-driven framework for approximating policies for large-scale combinatorial optimisation problems formulated as sequential decision problems (SDPs), where exact solution methods are computationally intractable. A central but underexplored aspect of IL in this context is the role of the \emph{expert} that generates training demonstrations. Existing studies employ a wide range of expert constructions, yet lack a unifying framework to characterise their modelling assumptions, computational properties, and impact on learning performance. This paper introduces a systematic taxonomy of experts for IL in combinatorial optimisation under uncertainty. Experts are classified along three dimensions: (i) their treatment of uncertainty, including myopic, deterministic, full-information, two-stage stochastic, and multi-stage stochastic formulations; (ii) their level of optimality, distinguishing task-optimal and approximate experts; and (iii) their interaction mode with the learner, ranging from one-shot supervision to iterative, interactive schemes. Building on this taxonomy, we propose a generalised Dataset Aggregation (DAgger) algorithm that supports multiple expert queries, expert aggregation, and flexible interaction strategies. The proposed framework is evaluated on a dynamic physician-to-patient assignment problem with stochastic arrivals and capacity constraints. Computational experiments compare learning outcomes across expert types and interaction regimes. The results show that policies learned from stochastic experts consistently outperform those learned from deterministic or full-information experts, while interactive learning improves solution quality using fewer expert demonstrations. Aggregated deterministic experts provide an effective alternative when stochastic optimisation becomes computationally challenging.
- Abstract(参考訳): Imitation Learning (IL) は、逐次決定問題 (SDP) として定式化された大規模組合せ最適化問題のポリシーを近似するためのデータ駆動型フレームワークを提供する。
この文脈では、ILの中心的だが未探索の側面は、トレーニングのデモンストレーションを生成する \emph{expert} の役割である。
既存の研究では、幅広い専門家構成が採用されているが、モデリングの前提、計算特性、学習性能への影響を特徴づける統一的な枠組みが欠如している。
本稿では,不確実性の下での組合せ最適化におけるILの専門家の系統分類を紹介する。
専門家は3つの次元に沿って分類される。
一 筋力、決定性、全情報、二段階確率、多段階確率の定式化を含む不確実性の治療
(二)課題最適化専門家と近似専門家を区別し、最適性のレベル
3) 学習者とのインタラクション・モードは, ワンショット・インスペクションから反復的, インタラクティブなスキームまで様々である。
この分類法に基づいて,複数の専門的クエリ,専門家集約,フレキシブルなインタラクション戦略をサポートする汎用データセット集約(DAgger)アルゴリズムを提案する。
提案手法は,確率的到着と容量制約を伴う動的医師から患者への割り当て問題に基づいて評価される。
計算実験は、専門家のタイプと相互作用体制の学習結果を比較する。
その結果、確率的専門家から学んだ政策は、決定論的あるいは完全な情報的専門家から学んだ政策を一貫して上回り、対話的学習は専門家のデモンストレーションを減らしてソリューションの品質を向上させることが明らかとなった。
集合決定論の専門家は、確率的最適化が計算的に困難になるとき、効果的な代替手段を提供する。
関連論文リスト
- Conformal Set-based Human-AI Complementarity with Multiple Experts [1.1510009152620668]
本研究は、複数の人間専門家のプールからインスタンス固有の専門家を選定することに焦点を当てる。
我々は、共形集合を利用して、インスタンスの分類に使用される専門家予測のサブセットを識別するグリーディアルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-08-09T14:17:51Z) - Efficient Imitation under Misspecification [17.706710359787056]
誤特定下での模倣学習の問題点を考察する。
本稿では,計算効率のよい局所探索手順のみを実行する逆強化学習アルゴリズムを提案する。
我々は,不特定条件下では,学習者が実際に行うことができる良い政策によって到達可能な状態を含むために,局所的な探索を行う一連の状態を拡張することが有益であることを示す。
論文 参考訳(メタデータ) (2025-03-17T13:35:55Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Holistic Deep Learning [3.718942345103135]
本稿では、入力摂動、過度なパラメータ化、性能不安定といった脆弱性の課題に対処する、新しい総合的なディープラーニングフレームワークを提案する。
提案したフレームワークは、標準的なディープラーニングモデルよりも正確性、堅牢性、疎性、安定性を全面的に改善する。
論文 参考訳(メタデータ) (2021-10-29T14:46:32Z) - USCO-Solver: Solving Undetermined Stochastic Combinatorial Optimization
Problems [9.015720257837575]
入力-解対のサンプルから高品質な最適化解を推定することを目的として,空間間の回帰を考察する。
基礎学習にはPAC-Bayesianフレームワークを用いて学習エラー分析を行う。
我々は,合成データセットと実世界のデータセットの両方において,古典的な問題に対する高い励振実験結果を得た。
論文 参考訳(メタデータ) (2021-07-15T17:59:08Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。