Fugu-MT 論文翻訳(概要): CRED: Counterfactual Reasoning and Environment Design for Active Preference Learning

論文の概要: CRED: Counterfactual Reasoning and Environment Design for Active Preference Learning

arxiv url: http://arxiv.org/abs/2603.08531v1
Date: Mon, 09 Mar 2026 16:01:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.112475
Title: CRED: Counterfactual Reasoning and Environment Design for Active Preference Learning
Title（参考訳）: CRED:アクティブな嗜好学習のための対実的推論と環境設計
Authors: Yi-Shiuan Tung, Gyanig Kumar, Wei Jiang, Bradley Hayes, Alessandro Roncone,
Abstract要約: 積極的嗜好学習は、ランク付けのための軌道を提示することで人間の報酬関数を学習する。環境設計と軌道選択を協調的に最適化することで報酬推論を改善するAPLの新しい軌道生成法であるCREDを提案する。 CREDは、報酬精度とサンプル効率において最先端の手法を著しく上回り、より高いユーザ評価を受ける。
参考スコア（独自算出の注目度）: 42.8490230146573
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As a robot's operational environment and tasks to perform within it grow in complexity, the explicit specification and balancing of optimization objectives to achieve a preferred behavior profile moves increasingly farther out of reach. These systems benefit strongly by being able to align their behavior to reflect human preferences and respond to corrections, but manually encoding this feedback is infeasible. Active preference learning (APL) learns human reward functions by presenting trajectories for ranking. However, existing methods sample from fixed trajectory sets or replay buffers that limit query diversity and often fail to identify informative comparisons. We propose CRED, a novel trajectory generation method for APL that improves reward inference by jointly optimizing environment design and trajectory selection to efficiently query and extract preferences from users. CRED "imagines" new scenarios through environment design and leverages counterfactual reasoning -- by sampling possible rewards from its current belief and asking "What if this were the true preference?" -- to generate trajectory pairs that expose differences between competing reward functions. Comprehensive experiments and a user study show that CRED significantly outperforms state-of-the-art methods in reward accuracy and sample efficiency and receives higher user ratings.
Abstract（参考訳）: ロボットの運用環境と、その内部で実行するタスクが複雑化するにつれて、望ましい行動プロファイルを達成するための最適化目標の明示的な仕様とバランスは、ますます遠く離れていく。これらのシステムは、人間の好みを反映し、修正に反応するように行動を調整することで、強い恩恵を受けるが、手動でこのフィードバックを符号化することは不可能である。能動選好学習(APL)は、ランク付けのための軌道を提示することにより、人間の報酬関数を学習する。しかし、既存のメソッドは、クエリの多様性を制限する固定されたトラジェクトリセットやリプレイバッファからサンプリングされ、しばしば情報的比較の特定に失敗する。環境設計と軌道選択を協調的に最適化し,ユーザの嗜好を効率的にクエリし,抽出することで,報酬推論を改善する新しいAPLの軌道生成手法であるCREDを提案する。 CREDは環境設計を通じて新たなシナリオを"想像"し、現在の信念から可能な報酬をサンプリングし、"もしこれが真の選好であったら?"と尋ねることで、競合する報酬関数の違いを明らかにする軌道対を生成する。総合的な実験とユーザスタディにより、CREDは報酬精度とサンプル効率において最先端の手法を著しく上回り、より高いユーザ評価を受けることが示された。

関連論文リスト

PROF: An LLM-based Reward Code Preference Optimization Framework for Offline Imitation Learning [29.373324685358753]
本稿では,自然言語記述から実行可能報酬関数コードを生成し,改善するためのフレームワークであるPROFと,単一専門家の軌跡を提案する。また,環境相互作用やRLトレーニングを必要とせず,新たな報酬関数品質評価とランキング戦略であるReward Preference Ranking(RPR)を提案する。
論文参考訳（メタデータ） (2025-11-14T14:38:02Z)
RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
ICPL: Few-shot In-context Preference Learning via LLMs [15.84585737510038]
我々は,Large Language Models (LLM) が,サンプル効率のよい選好学習を実現するために,ネイティブな選好学習機能を備えていることを示す。我々は,LLMの文脈内学習機能を用いて,人間のクエリ非効率を抑えるインコンテキスト優先学習(ICPL)を提案する。
論文参考訳（メタデータ） (2024-10-22T17:53:34Z)
A Generalized Acquisition Function for Preference-based Reward Learning [12.158619866176487]
優先度に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行したいと望む方法を教えるための一般的なテクニックである。従来の研究では、報酬関数パラメータに関する情報獲得を最大化するために、嗜好クエリを積極的に合成することで、データ効率が向上することが示されている。本研究では, 報酬関数を行動同値クラスまで学習するためには, 行動上の同一ランク付け, 選択上の分布, その他の関連する2つの報酬の類似性の定義などの最適化が可能であることを示す。
論文参考訳（メタデータ） (2024-03-09T20:32:17Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。