論文の概要: Complex Model Transformations by Reinforcement Learning with Uncertain Human Guidance
- arxiv url: http://arxiv.org/abs/2506.20883v1
- Date: Wed, 25 Jun 2025 23:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.913661
- Title: Complex Model Transformations by Reinforcement Learning with Uncertain Human Guidance
- Title(参考訳): 不確かさを考慮した強化学習による複雑なモデル変換
- Authors: Kyanna Dagenais, Istvan David,
- Abstract要約: モデル駆動工学の問題は、広範囲に連鎖する複雑なモデル変換(MT)を必要とすることが多い。
強化学習(RL)による複雑なMTシーケンス開発のためのアプローチと技術的枠組みを提案する。
我々のフレームワークは、ユーザ定義のMTをRLプリミティブにマッピングし、RLプログラムとして実行し、最適なMTシーケンスを見つける。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-driven engineering problems often require complex model transformations (MTs), i.e., MTs that are chained in extensive sequences. Pertinent examples of such problems include model synchronization, automated model repair, and design space exploration. Manually developing complex MTs is an error-prone and often infeasible process. Reinforcement learning (RL) is an apt way to alleviate these issues. In RL, an autonomous agent explores the state space through trial and error to identify beneficial sequences of actions, such as MTs. However, RL methods exhibit performance issues in complex problems. In these situations, human guidance can be of high utility. In this paper, we present an approach and technical framework for developing complex MT sequences through RL, guided by potentially uncertain human advice. Our framework allows user-defined MTs to be mapped onto RL primitives, and executes them as RL programs to find optimal MT sequences. Our evaluation shows that human guidance, even if uncertain, substantially improves RL performance, and results in more efficient development of complex MTs. Through a trade-off between the certainty and timeliness of human advice, our method takes a step towards RL-driven human-in-the-loop engineering methods.
- Abstract(参考訳): モデル駆動工学の問題は、しばしば複雑なモデル変換(MT)を必要とする。
このような問題の継続的な例としては、モデル同期、自動モデル修復、設計空間探索などがある。
複雑なMTを手動で開発することは、エラーを起こしやすく、しばしば実現不可能なプロセスである。
強化学習(Reinforcement Learning, RL)は、これらの問題を緩和するための適度な方法である。
RLでは、自律的なエージェントが試行錯誤を通じて状態空間を探索し、MTのような有益な行動列を特定する。
しかし、RL法は複雑な問題において性能上の問題を示す。
このような状況下では、人間の指導は有効性が高い。
本稿では,RLを用いた複雑なMTシークエンス開発のためのアプローチと技術的枠組みについて述べる。
我々のフレームワークは、ユーザ定義のMTをRLプリミティブにマッピングし、RLプログラムとして実行し、最適なMTシーケンスを見つける。
評価の結果,不確実な場合でもRL性能が大幅に向上し,複雑なMTのより効率的な開発がもたらされることが示唆された。
人間のアドバイスの確実性とタイムラインのトレードオフを通じて,本手法はRL駆動の人間-イン-ザ-ループ工学手法への一歩を踏み出した。
関連論文リスト
- Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。
DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - Transform then Explore: a Simple and Effective Technique for Exploratory Combinatorial Optimization with Reinforcement Learning [11.531786269804707]
グラフ上の最適化問題(COP)を解決するためのゲージ変換(GT)手法を提案する。
GTは非常にシンプルで、10行未満のPythonコードで実装でき、ほとんどの強化学習モデルに適用できる。
GTを用いた従来のRLモデルでは,MaxCut問題に対して最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-04-06T15:31:17Z) - GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot [27.410618312830497]
本稿では,GERM(Generalist Robotic Model)を提案する。
データ利用戦略を最適化するためにオフライン強化学習を利用する。
我々は、マルチモーダル入力と出力動作を処理するために、トランスフォーマーベースのVLAネットワークを使用する。
論文 参考訳(メタデータ) (2024-03-20T07:36:43Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Automated Reinforcement Learning: An Overview [6.654552816487819]
強化学習と深層強化学習は、シーケンシャルな意思決定問題を解決する一般的な方法である。
本稿では,RLの自動化に使用可能な文献と最近の研究について考察する。
論文 参考訳(メタデータ) (2022-01-13T14:28:06Z) - Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。
我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文 参考訳(メタデータ) (2022-01-11T12:41:43Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。