Fugu-MT 論文翻訳(概要): An Offline Adaptation Framework for Constrained Multi-Objective Reinforcement Learning

論文の概要: An Offline Adaptation Framework for Constrained Multi-Objective Reinforcement Learning

arxiv url: http://arxiv.org/abs/2409.09958v1
Date: Mon, 16 Sep 2024 03:08:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 16:40:52.891155
Title: An Offline Adaptation Framework for Constrained Multi-Objective Reinforcement Learning
Title（参考訳）: 制約付き多目的強化学習のためのオフライン適応フレームワーク
Authors: Qian Lin, Zongkai Liu, Danying Mo, Chao Yu,
Abstract要約: 本稿では,多目的RL問題に対して,手作業による目標設定を仮定することなく,簡易かつ効果的なオフライン適応フレームワークを提案する。本フレームワークは,安全実証を利用して,安全クリティカルな目標に対する制約を満たすために自然に拡張することができる。オフライン多目的・安全なタスクにおける実証的な結果から、実際の嗜好に沿ったポリシーを推論するフレームワークの能力を示す。
参考スコア（独自算出の注目度）: 7.30549583326951
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, significant progress has been made in multi-objective reinforcement learning (RL) research, which aims to balance multiple objectives by incorporating preferences for each objective. In most existing studies, specific preferences must be provided during deployment to indicate the desired policies explicitly. However, designing these preferences depends heavily on human prior knowledge, which is typically obtained through extensive observation of high-performing demonstrations with expected behaviors. In this work, we propose a simple yet effective offline adaptation framework for multi-objective RL problems without assuming handcrafted target preferences, but only given several demonstrations to implicitly indicate the preferences of expected policies. Additionally, we demonstrate that our framework can naturally be extended to meet constraints on safety-critical objectives by utilizing safe demonstrations, even when the safety thresholds are unknown. Empirical results on offline multi-objective and safe tasks demonstrate the capability of our framework to infer policies that align with real preferences while meeting the constraints implied by the provided demonstrations.
Abstract（参考訳）: 近年,多目的強化学習(RL)研究において,各目的に対する嗜好を取り入れた多目的強化学習(RL)研究が著しい進歩を遂げている。既存のほとんどの研究では、望まれるポリシーを明確に示すために、デプロイメント中に特定の嗜好を提供する必要がある。しかしながら、これらの嗜好を設計することは人間の事前知識に大きく依存する。本研究では,多目的RL問題に対する簡易かつ効果的なオフライン適応フレームワークを提案する。さらに,安全基準が不明な場合でも,安全実証を利用して,安全クリティカルな目標に対する制約を満たすために,我々のフレームワークを自然に拡張できることを実証した。オフラインの多目的・安全タスクにおける実証的な結果から、提案したデモによって示唆される制約を満たしながら、実際の嗜好と整合するポリシーを推論するフレームワークの能力を実証する。

関連論文リスト

DICE: Dynamic In-Context Example Selection in LLM Agents via Efficient Knowledge Transfer [50.64531021352504]
インコンテキスト学習(ICL)によって強化された大規模言語モデルベースエージェントは、複雑な推論やツール使用タスクにおいて強力な能力を示している。既存のアプローチは典型的には、エージェントやマルチステップの設定を含むサンプルの選択に依存している。推論の各ステップにおいて最も関連性の高い実演を選択できるエージェントタスクのための理論的に基礎付けられた ICL フレームワーク DICE を提案する。
論文参考訳（メタデータ） (2025-07-31T13:42:14Z)
Customize Multi-modal RAI Guardrails with Precedent-based predictions [55.63757336900865]
マルチモーダルガードレールは、ユーザ定義ポリシーに基づいて、画像コンテンツを効果的にフィルタリングする必要がある。既存の微調整手法は、通常、事前に定義されたポリシーの条件予測を行う。本稿では、入力に類似した先行データポイントの推論過程である「先行情報」に対する条件モデルの判断を提案する。
論文参考訳（メタデータ） (2025-07-28T03:45:34Z)
Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文参考訳（メタデータ） (2025-05-29T17:56:05Z)
Safety Alignment Can Be Not Superficial With Explicit Safety Signals [8.297367440457508]
大規模言語モデル(LLM)の安全性アライメントに関する最近の研究は、既存のアプローチがしばしば表面的に機能することを明らかにしている。既存のアライメントアプローチでは、アライメントプロセス中にモデルが暗黙的に安全関連推論タスクを学習できると考えられる。安全関連バイナリ分類タスクを明示的に導入し,その信号を注意と復号化戦略に統合することにより,この曖昧さを解消する。
論文参考訳（メタデータ） (2025-05-19T20:40:46Z)
A Survey on Personalized Alignment -- The Missing Piece for Large Language Models in Real-World Applications [28.181295575180293]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、現実のアプリケーションへの移行には限界がある。本稿では、パーソナライズされたアライメントに関する最初の包括的調査を示す。本稿では、優先メモリ管理、パーソナライズされた生成、フィードバックに基づくアライメントを含む統合されたフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-21T10:09:16Z)
Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文参考訳（メタデータ） (2025-02-17T15:28:40Z)
Rethinking Multi-Objective Learning through Goal-Conditioned Supervised Learning [8.593384839118658]
多目的学習は、1つのモデルで複数の目的を同時に最適化することを目的としている。正確な学習プロセスを形式化し実行することの難しさに悩まされる。本稿では,既存のシーケンシャルデータに基づいて,複数の目的を自動学習する汎用フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-12T03:47:40Z)
C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文参考訳（メタデータ） (2024-10-03T06:13:56Z)
Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning [26.244121960815907]
本稿では,多目的学習と制約順守の政策最適化を協調するプライマリベースフレームワークを提案する。提案手法は,複数のRL目標を最適化するために,新しい自然ポリシー勾配演算法を用いる。また,提案手法は,安全性の高い多目的強化学習タスクにおいて,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:42:10Z)
Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。 AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-24T15:13:53Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文参考訳（メタデータ） (2024-02-23T19:09:10Z)
MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。 MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文参考訳（メタデータ） (2023-07-13T08:10:48Z)
Multi-Target Multiplicity: Flexibility and Fairness in Target Specification under Resource Constraints [76.84999501420938]
対象の選択が個人の結果にどのように影響するかを評価するための概念的および計算的枠組みを導入する。目的変数選択から生じる多重度は, 1つのターゲットのほぼ最適モデルから生じるものよりも大きいことが示される。
論文参考訳（メタデータ） (2023-06-23T18:57:14Z)
Goal-conditioned Offline Reinforcement Learning through State Space Partitioning [9.38848713730931]
オフライン強化学習(RL)は、オフラインデータセットのみを使用してシーケンシャルな決定ポリシーを推論することを目的としている。我々は,その利点にもかかわらず,分散シフトやマルチモダリティ問題を完全に解決するには,このアプローチは依然として不十分である,と論じる。本稿では,帰納的バイアスの新たな源となる相補的優位性に基づく重み付け手法を提案する。
論文参考訳（メタデータ） (2023-03-16T14:52:53Z)
Offline Reinforcement Learning with Instrumental Variables in Confounded Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文参考訳（メタデータ） (2022-09-18T22:03:55Z)
Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-08T23:16:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。