Fugu-MT 論文翻訳(概要): Using Petri Nets as an Integrated Constraint Mechanism for Reinforcement Learning Tasks

論文の概要: Using Petri Nets as an Integrated Constraint Mechanism for Reinforcement Learning Tasks

arxiv url: http://arxiv.org/abs/2407.04481v1
Date: Fri, 5 Jul 2024 13:04:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 13:30:37.818389
Title: Using Petri Nets as an Integrated Constraint Mechanism for Reinforcement Learning Tasks
Title（参考訳）: 強化学習課題の統合制約機構としてのペトリネットの利用
Authors: Timon Sachweh, Pierre Haritz, Thomas Liebig,
Abstract要約: アルゴリズムへの信頼の欠如は、現実世界のドメインで制御するために強化学習(RL)エージェントを使用する場合の課題である。本稿では,典型的なRLアプローチに対して3つの利点を持つペトリネット(PN)を用いたアプローチを提案する。
参考スコア（独自算出の注目度）: 3.105112058253643
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The lack of trust in algorithms is usually an issue when using Reinforcement Learning (RL) agents for control in real-world domains such as production plants, autonomous vehicles, or traffic-related infrastructure, partly due to the lack of verifiability of the model itself. In such scenarios, Petri nets (PNs) are often available for flowcharts or process steps, as they are versatile and standardized. In order to facilitate integration of RL models and as a step towards increasing AI trustworthiness, we propose an approach that uses PNs with three main advantages over typical RL approaches: Firstly, the agent can now easily be modeled with a combined state including both external environmental observations and agent-specific state information from a given PN. Secondly, we can enforce constraints for state-dependent actions through the inherent PN model. And lastly, we can increase trustworthiness by verifying PN properties through techniques such as model checking. We test our approach on a typical four-way intersection traffic light control setting and present our results, beating cycle-based baselines.
Abstract（参考訳）: アルゴリズムへの信頼の欠如は、生産プラント、自動運転車、交通関連インフラなどの現実世界のドメインの制御に強化学習(RL)エージェントを使用する場合、部分的にはモデル自体の妥当性の欠如によって問題となる。このようなシナリオでは、ペトリネット(PN)はフローチャートやプロセスステップで利用でき、汎用的で標準化されている。 RLモデルの統合を容易にし、AIの信頼性を高めるためのステップとして、典型的なRLアプローチよりも3つの大きな利点を持つPNを使用するアプローチを提案する。第二に、本質的なPNモデルにより、状態依存アクションの制約を強制することができる。最後に,モデル検査などの手法を用いてPN特性を検証することにより信頼性を向上させることができる。我々は、典型的な4方向交差点の信号機制御設定にアプローチを試行し、サイクルベースラインを上回り、その結果を提示する。

関連論文リスト

Learning Constraints Directly from Network Data [0.34137115855910755]
ルール抽出は、合成データの質を改善し、機械学習モデルの脆さを低減し、ネットワーク測定の意味的理解を改善する。本稿では,生のネットワーク計測から命題論理の制約を直接学習するNetNomosを紹介する。評価の結果、NetNomosは3時間以内で0.01%のデータポイントに関連するものを含むすべてのベンチマークルールを学習していることがわかった。
論文参考訳（メタデータ） (2025-06-30T15:36:22Z)
Origin Tracer: A Method for Detecting LoRA Fine-Tuning Origins in LLMs [3.925661213372832]
本稿では,モデルが特定のベースモデルから微調整されたかどうかを厳密に判定する新しい検出法を提案する。このフレームワークは、モデルファインチューニングのソースをピンポイントすることに特化した形式化されたアプローチを初めて提供する。我々は,実世界の難読化シナリオをシミュレートした条件下で,31種類のオープンソースモデルに対して,我々の手法を実証的に検証した。
論文参考訳（メタデータ） (2025-05-26T03:38:14Z)
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文参考訳（メタデータ） (2025-05-15T17:58:33Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning [40.93098780862429]
基礎モデルファインチューニング(FT)における最強の結果は,比較的複雑な2段階の訓練手順によって達成されることを示す。 1つは、ダウンストリーム強化学習手順の一部としてオンラインフィードバックを提供するために使用する前に、あるデータセット(例えば人間の好み)に報酬モデル(RM)をトレーニングする。我々は、生成検証ギャップの問題、比較的単純なRMを好みデータから学習することの容易さ、下流のRLプロシージャが探索空間を最適なポリシーのサブセットにフィルタリングする能力の組み合わせ、といった説明を最も支持している。
論文参考訳（メタデータ） (2025-03-03T00:15:19Z)
Model-based Offline Policy Optimization with Adversarial Network [0.36868085124383626]
本稿では,新たなモデルベースオフラインポリシー最適化フレームワーク(MOAN)を提案する。主なアイデアは、敵の学習を使って、より良い一般化を伴う遷移モデルを構築することである。我々の手法は、広く研究されているオフラインRLベンチマークにおいて、最先端のベースラインよりも優れている。
論文参考訳（メタデータ） (2023-09-05T11:49:33Z)
Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文参考訳（メタデータ） (2022-10-06T00:33:01Z)
Relational Action Bases: Formalization, Effective Safety Verification, and Invariants (Extended Version) [67.99023219822564]
我々はリレーショナルアクションベース(RAB)の一般的な枠組みを紹介する。 RABは両方の制限を解除することで既存のモデルを一般化する。データ対応ビジネスプロセスのベンチマークにおいて、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-08-12T17:03:50Z)
Fully Decentralized Model-based Policy Optimization for Networked Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文参考訳（メタデータ） (2022-07-13T23:52:14Z)
Residual Pathway Priors for Soft Equivariance Constraints [44.19582621065543]
本稿では,厳密な制約をソフトな事前に変換する手法としてResidual Pathway Priors(RPP)を紹介する。 RPPは近似対称性や不特定対称性に耐性があり、対称性が正確であっても完全に制約されたモデルと同じくらい効果的である。
論文参考訳（メタデータ） (2021-12-02T16:18:17Z)
Explaining a Series of Models by Propagating Local Feature Attributions [9.66840768820136]
複数の機械学習モデルを含むパイプラインは、多くの領域でパフォーマンスが向上するが、理解が難しい。 Shapley値への接続に基づいて、モデルの複雑なパイプラインを通じてローカル機能属性を伝播させるフレームワークを紹介します。本フレームワークにより,アルツハイマー病および乳癌の組織学的診断における遺伝子発現特徴群に基づく高次結論の導出が可能となった。
論文参考訳（メタデータ） (2021-04-30T22:20:58Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文参考訳（メタデータ） (2021-02-13T17:16:41Z)
Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文参考訳（メタデータ） (2020-12-01T11:46:03Z)
MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文参考訳（メタデータ） (2020-05-27T08:46:41Z)
Guided Uncertainty-Aware Policy Optimization: Combining Learning and Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文参考訳（メタデータ） (2020-05-21T19:47:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。