論文の概要: Multi-Objective Constraint Inference using Inverse reinforcement learning
- arxiv url: http://arxiv.org/abs/2605.06951v1
- Date: Thu, 07 May 2026 21:09:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.627491
- Title: Multi-Objective Constraint Inference using Inverse reinforcement learning
- Title(参考訳): 逆強化学習を用いた多目的制約推論
- Authors: Syed Ihtesham Hussain Shah, Floris den Hengst, Aneta Lisowska, Annette ten Teije,
- Abstract要約: 多目的制約推論(Multi-Objective Constraint Inference、MOCI)は、異種専門家の軌跡から共有制約と個人の嗜好を共同で抽出するように設計された新しいフレームワークである。
MOCIは、多様で潜在的に矛盾する振る舞いから効果的にモデル化し、学習する。
- 参考スコア(独自算出の注目度): 4.8029888032686445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constraint inference is widely considered essential to align reinforcement learning agents with safety boundaries and operational guidelines by observing expert demonstrations. However, existing approaches typically assume homogeneous demonstrations (i.e., generated by a single expert or multiple experts with identical objectives). They also have limited ability to capture individual preferences and often suffer from computational inefficiencies. In this paper, we introduce Multi-Objective Constraint Inference (MOCI), a novel framework designed to jointly extract shared constraints and individual preferences from heterogeneous expert trajectories, where multiple experts pursue different objectives. MOCI effectively models and learns from diverse, and potentially conflicting, behaviors. Empirical evaluations demonstrate that MOCI significantly outperforms existing baselines, achieving improved predictive performance, and maintaining competitive computational efficiency on a standard grid-world benchmark. These results establish MOCI as an accurate, flexible, and computationally practical approach for real-world constraint inference and preference learning tasks.
- Abstract(参考訳): 制約推論は、専門家によるデモンストレーションを観察することで、強化学習エージェントを安全境界と運用ガイドラインに整合させるのに不可欠であると考えられている。
しかし、既存のアプローチは典型的には均質な実演(すなわち、一つの専門家または同じ目的を持つ複数の専門家によって生成される)を仮定する。
また、個々の好みを捉える能力に制限があり、しばしば計算の非効率さに悩まされる。
本稿では,多目的制約推論(MOCI, Multi-Objective Constraint Inference)について紹介する。
MOCIは、多様で潜在的に矛盾する振る舞いから効果的にモデル化し、学習する。
実証的な評価は、MOCIが既存のベースラインを著しく上回り、予測性能を向上し、標準グリッドワールドベンチマーク上での競合計算効率を維持することを示した。
これらの結果は,実世界の制約推論および選好学習タスクにおいて,MOCIを正確かつ柔軟かつ実用的な手法として確立する。
関連論文リスト
- Prediction-powered Inference by Mixture of Experts [14.293038907072598]
予測型推論(PPI)に基づくMOEを用いた半教師付き推論フレームワークを提案する。
PPIの根底にある分散還元原理によって動機づけられたこのフレームワークは、最小限の分散を実現する専門家の混合を求める。
このフレームワークは柔軟で、平均推定、線形回帰、量子推定、一般のM推定に適用できる。
論文 参考訳(メタデータ) (2026-04-30T14:08:17Z) - TREX: Trajectory Explanations for Multi-Objective Reinforcement Learning [1.2922946578413577]
多目的強化学習ポリシーを説明するための軌道ベース説明可能性フレームワーク
多目的強化学習ポリシーを説明するための軌道ベース説明可能性フレームワーク
論文 参考訳(メタデータ) (2026-03-23T13:55:14Z) - Is Softmax Loss All You Need? A Principled Analysis of Softmax-family Loss [91.61796429377041]
ソフトマックスの損失は、分類とランキングのタスクにおいて最も広く使用されるサロゲートの目標の1つである。
本研究では,異なるサロゲートが分類とランキングの指標との整合性を達成するかどうかを考察し,それらの勾配ダイナミクスを分析して,異なる収束挙動を明らかにする。
本研究は,大規模機械学習アプリケーションにおける損失選択の実践的ガイダンスとして,原則的基礎を確立した。
論文 参考訳(メタデータ) (2026-01-30T09:24:52Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Imitation Learning for Combinatorial Optimisation under Uncertainty [1.0781866671930855]
本稿では,不確実性の下でのIL最適化の専門家の系統分類について紹介する。
専門家は, 筋力, 決定性, フル情報, 2段階, 多段階の定式化, 最適性のレベル, タスク最適, 近似的エキスパートの識別, 学習者とのインタラクションモード, ワンショットの監督から反復的, インタラクティブなスキームまで, の3つの次元に沿って分類される。
論文 参考訳(メタデータ) (2026-01-08T21:16:25Z) - Input Domain Aware MoE: Decoupling Routing Decisions from Task Optimization in Mixture of Experts [19.707274733121412]
Sparse Mixture of Experts (sMoE)は、大規模な視覚言語モデルをスケールするための重要なアプローチとなっている。
本稿では、確率的混合モデルを利用して入力空間を分割する新しいルーティングフレームワークであるInput Domain Aware MoEを提案する。
ルーティング確率を分布の混合としてモデル化することにより、バランスの取れた利用を達成しつつ、専門家が明確な特殊化境界を構築できる。
論文 参考訳(メタデータ) (2025-10-18T11:01:03Z) - One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning [52.966712416640085]
本稿では,タスク固有戦略と共有プロンプト戦略の両方の利点を統合する新しいフレームワークであるSMoPEを提案する。
SMoPEはタスク固有のプロンプトメソッドを一貫して上回り、最先端のアプローチと競合する性能を達成する。
論文 参考訳(メタデータ) (2025-09-29T08:54:58Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。