論文の概要: Search-Based Credit Assignment for Offline Preference-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.15327v1
- Date: Thu, 21 Aug 2025 07:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.230826
- Title: Search-Based Credit Assignment for Offline Preference-Based Reinforcement Learning
- Title(参考訳): オフライン優先型強化学習のための検索ベースクレジットアサインメント
- Authors: Xiancheng Gao, Yufeng Shi, Wengang Zhou, Houqiang Li,
- Abstract要約: 本稿では,2つのフィードバックソースを統一する検索ベースPreference Weightingスキームを提案する。
選好ラベル付き軌道における各遷移について、SPWは専門家のデモンストレーションから最もよく似た状態-作用対を探索する。
これらの重みは標準の嗜好学習をガイドするために使われ、より正確なクレジット割り当てを可能にします。
- 参考スコア(独自算出の注目度): 91.03805726683511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning refers to the process of learning policies from fixed datasets, without requiring additional environment interaction. However, it often relies on well-defined reward functions, which are difficult and expensive to design. Human feedback is an appealing alternative, but its two common forms, expert demonstrations and preferences, have complementary limitations. Demonstrations provide stepwise supervision, but they are costly to collect and often reflect limited expert behavior modes. In contrast, preferences are easier to collect, but it is unclear which parts of a behavior contribute most to a trajectory segment, leaving credit assignment unresolved. In this paper, we introduce a Search-Based Preference Weighting (SPW) scheme to unify these two feedback sources. For each transition in a preference labeled trajectory, SPW searches for the most similar state-action pairs from expert demonstrations and directly derives stepwise importance weights based on their similarity scores. These weights are then used to guide standard preference learning, enabling more accurate credit assignment that traditional approaches struggle to achieve. We demonstrate that SPW enables effective joint learning from preferences and demonstrations, outperforming prior methods that leverage both feedback types on challenging robot manipulation tasks.
- Abstract(参考訳): オフライン強化学習は、追加の環境相互作用を必要とせずに、固定されたデータセットからポリシーを学習するプロセスを指す。
しかし、よく明確に定義された報酬関数に依存しており、設計が困難でコストがかかる。
人間のフィードバックは魅力的な代替手段だが、専門家によるデモンストレーションと好みという2つの一般的な形式は相補的な制限がある。
デモは段階的な監視を提供するが、収集にはコストがかかり、専門家の行動を限定的に反映することが多い。
対照的に、好みの収集は容易であるが、どの部分の行動が軌道セグメントに最も寄与しているかは不明であり、クレジットの割り当ては未解決のままである。
本稿では,これら2つのフィードバックソースを統合するためのSPW方式を提案する。
ラベル付き軌道における各遷移について、SPWは専門家によるデモンストレーションから最も類似した状態-作用対を探索し、それらの類似度スコアに基づいて、段階的に重要な重みを導出する。
これらの重みは、標準の嗜好学習をガイドするために使用され、従来のアプローチが達成に苦慮するほど正確な信用割り当てを可能にします。
我々は,SPWがロボット操作タスクにおいて,フィードバック型とフィードバック型の両方を活用する先行手法よりも優れた,選好と実演から効果的な共同学習を可能にすることを実証した。
関連論文リスト
- CLARIFY: Contrastive Preference Reinforcement Learning for Untangling Ambiguous Queries [13.06534916144093]
ResolvIng Ambiguous Feedback (CLARIFY) のためのコントラストLeArningを提案する。
CLARIFYは、選好情報を含む軌道埋め込み空間を学習し、明確に区別されたセグメントが分離されることを保証する。
我々のアプローチは、より優れたクエリを選択するだけでなく、意味のある軌道埋め込みも学習する。
論文 参考訳(メタデータ) (2025-05-31T04:37:07Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences [12.775486996512434]
嗜好に基づく強化学習は、エージェント行動に関する人間教師の嗜好から直接学習する。
既存のPBRL法はしばしば明示的な選好から学習し、教師が平等な選好を選択する可能性を無視している。
そこで本稿では,PBRL手法であるMulti-Type Preference Learning (MTPL)を提案する。
論文 参考訳(メタデータ) (2024-09-11T13:43:49Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。