論文の概要: Integrating Human Knowledge Through Action Masking in Reinforcement Learning for Operations Research
- arxiv url: http://arxiv.org/abs/2504.02662v1
- Date: Thu, 03 Apr 2025 15:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:53:14.361605
- Title: Integrating Human Knowledge Through Action Masking in Reinforcement Learning for Operations Research
- Title(参考訳): 操作研究のための強化学習における行動マスキングによる人的知識の統合
- Authors: Mirko Stappert, Bernhard Lutz, Niklas Goby, Dirk Neumann,
- Abstract要約: 我々は、アクションマスキングによる人間の知識を含めることの利点と欠点を分析した。
我々は,アクションマスキングを使わずにトレーニングされたポリシーに対して,アクションマスキングが大幅に改善できることを見出した。
我々は、アクションマスクが過度に制限された場合、最適以下の結果をもたらす可能性を強調する。
- 参考スコア(独自算出の注目度): 3.212381039696143
- License:
- Abstract: Reinforcement learning (RL) provides a powerful method to address problems in operations research. However, its real-world application often fails due to a lack of user acceptance and trust. A possible remedy is to provide managers with the possibility of altering the RL policy by incorporating human expert knowledge. In this study, we analyze the benefits and caveats of including human knowledge via action masking. While action masking has so far been used to exclude invalid actions, its ability to integrate human expertise remains underexplored. Human knowledge is often encapsulated in heuristics, which suggest reasonable, near-optimal actions in certain situations. Enforcing such actions should hence increase trust among the human workforce to rely on the model's decisions. Yet, a strict enforcement of heuristic actions may also restrict the policy from exploring superior actions, thereby leading to overall lower performance. We analyze the effects of action masking based on three problems with different characteristics, namely, paint shop scheduling, peak load management, and inventory management. Our findings demonstrate that incorporating human knowledge through action masking can achieve substantial improvements over policies trained without action masking. In addition, we find that action masking is crucial for learning effective policies in constrained action spaces, where certain actions can only be performed a limited number of times. Finally, we highlight the potential for suboptimal outcomes when action masks are overly restrictive.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 業務研究における課題に対処するための強力な手法である。
しかしながら、実際のアプリケーションは、ユーザの受け入れと信頼の欠如により、しばしば失敗する。
人的知識を取り入れることで、マネージャにRLポリシーを変更する可能性を提供することが考えられる。
本研究では,行動マスキングによる人的知識の活用のメリットと問題点を分析する。
アクションマスキングは、これまでは無効なアクションを除外するために使われてきたが、人間の専門知識を統合する能力はまだ未熟である。
人間の知識は、しばしばヒューリスティックスにカプセル化され、特定の状況において合理的で、ほぼ最適な行動を示す。
したがって、そのような行動を実施することは、モデルの決定に依存するために、人間の労働力間の信頼を高めるべきである。
しかし、厳格なヒューリスティック行動の実施は、政策が優れた行動を探すことを制限し、結果として全体的なパフォーマンスが低下する可能性がある。
本研究では,3つの特徴,すなわちペイントショップスケジューリング,ピーク負荷管理,在庫管理の3つの問題に基づいて,アクションマスキングの効果を分析した。
本研究は,アクションマスキングを通した人的知識の活用が,アクションマスキングを使わずにトレーニングされた政策よりも大幅に改善できることを実証した。
また,特定の行動が限られた回数しか実行できない制約された行動空間において,効果的な政策を学ぶためには,行動マスキングが不可欠であることがわかった。
最後に,アクションマスクが過度に制限された場合の最適下界の可能性を強調した。
関連論文リスト
- Reducing Action Space for Deep Reinforcement Learning via Causal Effect Estimation [15.684669299728743]
本研究では,行動の因果効果を推定し,探索効率を向上させる手法を提案する。
まず、環境の事前知識として機能するために、逆ダイナミクスモデルを事前訓練する。
各ステップでアクション空間全体にわたってアクションを分類し、各アクションの因果効果を推定し、冗長なアクションを抑制する。
論文 参考訳(メタデータ) (2025-01-24T14:47:33Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking [7.590209768166108]
本稿では,アクション空間を関連するアクションの状態依存集合にマッピングする3つの連続的なアクションマスキング手法を提案する。
本手法は,RLエージェントの予測可能性を高め,安全クリティカルなアプリケーションでの使用を可能にする。
論文 参考訳(メタデータ) (2024-06-06T02:55:16Z) - Empowering Large Language Model Agents through Action Learning [85.39581419680755]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。
我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文 参考訳(メタデータ) (2024-02-24T13:13:04Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Safe and Robust Experience Sharing for Deterministic Policy Gradient
Algorithms [0.0]
本稿では,連続行動領域における決定論的ポリシーの簡易かつ効果的な経験共有機構を提案する。
我々は,行動確率を見積もることなく,新たな法外補正手法でアルゴリズムを高速化する。
我々は,OpenAI Gym連続制御タスクに挑戦する上で,提案手法の有効性を検証し,複数のエージェント間での安全な共有を実現することができると結論付けた。
論文 参考訳(メタデータ) (2022-07-27T11:10:50Z) - Initiative Defense against Facial Manipulation [82.96864888025797]
本稿では,悪意あるユーザによって制御される顔操作モデルの性能を低下させるための,イニシアティブ・ディフェンスの新しい枠組みを提案する。
まず、サロゲートモデルを用いてターゲット操作モデルを模倣し、次に毒の摂動発生器を考案し、所望の毒を得る。
論文 参考訳(メタデータ) (2021-12-19T09:42:28Z) - Modeling Strong and Human-Like Gameplay with KL-Regularized Search [64.24339197581769]
我々は,多エージェント意思決定問題において,強いが人間的な政策を構築するという課題を考察する。
模倣学習は人間の行動を予測するのに効果的であるが、熟練した人間の強さと一致しない可能性がある。
チェスと囲碁において、モンテカルロ木探索を適用して、KLの分岐に基づく探索ポリシーを模倣学習ポリシーから規則化することで、人間の予測精度が高く、模倣ポリシーよりも強いポリシーを生成することを示す。
論文 参考訳(メタデータ) (2021-12-14T16:52:49Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Robust Asymmetric Learning in POMDPs [24.45409442047289]
模造学習の既存のアプローチには重大な欠陥があります:専門家は研修生が見ることができないものを知りません。
模倣エージェントポリシーの期待される報酬を最大化するために専門家を訓練し、効率的なアルゴリズム、適応非対称ダガー(A2D)を構築するためにそれを使用する目的を導き出します。
a2dは、エージェントが安全に模倣できる専門家ポリシーを生成し、その結果、固定された専門家を模倣して学習したポリシーを上回ることを示します。
論文 参考訳(メタデータ) (2020-12-31T11:46:51Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。