論文の概要: Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment
- arxiv url: http://arxiv.org/abs/2602.14844v1
- Date: Mon, 16 Feb 2026 15:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.487029
- Title: Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment
- Title(参考訳): インタラクションレス逆強化学習:耐久性アライメントのためのデータ中心フレームワーク
- Authors: Elias Malomgré, Pieter Simoens,
- Abstract要約: Reinforcement Learning from Human Feedbackのような手法は、不透明で単一用途のアライメントを生成する。
政策最適化からアライメント・アーティファクト・ラーニングを分離するためのインタラクションレス逆強化学習を提案する。
アライメント・フライホイール(Alignment Flywheel)は、報酬モデルを反復的に強化するループライフサイクルである。
- 参考スコア(独自算出の注目度): 5.399984738447277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI alignment is growing in importance, yet current approaches suffer from a critical structural flaw that entangles the safety objectives with the agent's policy. Methods such as Reinforcement Learning from Human Feedback and Direct Preference Optimization create opaque, single-use alignment artifacts, which we term Alignment Waste. We propose Interactionless Inverse Reinforcement Learning to decouple alignment artifact learning from policy optimization, producing an inspectable, editable, and model-agnostic reward model. Additionally, we introduce the Alignment Flywheel, a human-in-the-loop lifecycle that iteratively hardens the reward model through automated audits and refinement. This architecture transforms safety from a disposable expense into a durable, verifiable engineering asset.
- Abstract(参考訳): AIアライメントの重要性は高まっているが、現在のアプローチでは、エージェントのポリシーと安全目標を絡める重要な構造的欠陥に悩まされている。
Reinforcement Learning from Human Feedback や Direct Preference Optimization のような手法は、アライメント廃棄物と呼ばれる不透明で単一用途のアライメントアーティファクトを作成する。
政策最適化からアライメントアーティファクト学習を分離し、検査可能で、編集可能で、モデルに依存しない報酬モデルを作成するために、インタラクションレス逆強化学習を提案する。
さらに、アライメントフライホイール(Alignment Flywheel)を導入し、自動監査と改善によって報酬モデルを反復的に強化する。
このアーキテクチャは、使い捨ての費用から、耐久性があり検証可能なエンジニアリング資産へと安全性を変換する。
関連論文リスト
- Beyond Static Datasets: Robust Offline Policy Optimization via Vetted Synthetic Transitions [4.359780028396042]
静的データセットと学習ポリシ間の分散シフトに対処するモデルベースのフレームワークであるMoReBRACを提案する。
本研究では,変分オートエンコーダ(VAE)モデル検出,モデル感度解析,モンテカルロ(MC)ドロップアウトを統合した階層的不確実性パイプラインを実装した。
D4RL Gym-MuJoCoベンチマークの結果,特にランダム'とサブ最適'のデータ構造において,大幅な性能向上が示された。
論文 参考訳(メタデータ) (2026-01-26T03:38:27Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。
我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。
OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文 参考訳(メタデータ) (2025-10-12T13:46:28Z) - OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。
我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。
OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-26T15:31:32Z) - CCrepairBench: A High-Fidelity Benchmark and Reinforcement Learning Framework for C++ Compilation Repair [18.624106902572155]
CCrepairは、洗練された生成と検証パイプラインによって構築された、新しい大規模C++コンパイルエラーデータセットである。
第2に,ハイブリッド報酬信号で導かれる強化学習パラダイムを提案し,その焦点を単なるコンパイル性から修正の意味的品質にシフトさせる。
論文 参考訳(メタデータ) (2025-09-19T07:06:27Z) - DeAL: Decoding-time Alignment for Large Language Models [58.368979253590794]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
我々は,報酬関数をカスタマイズし,LLMの復号時間アライメントを可能にするフレームワークであるDeALを提案する。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。