論文の概要: Evaluating Feature Dependent Noise in Preference-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.01904v1
- Date: Mon, 05 Jan 2026 08:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.920516
- Title: Evaluating Feature Dependent Noise in Preference-based Reinforcement Learning
- Title(参考訳): 優先型強化学習における特徴依存雑音の評価
- Authors: Yuxuan Li, Harshith Reddy Kethireddy, Srijita Das,
- Abstract要約: 強化学習における優先度からの学習(PbRL)は、報酬関数が簡単に利用できない複雑なタスクに自然に適合するため、近年注目を集めている。
それまでの文献の多くはノイズを検出することを目的としていたが、ノイズの種類は限られており、ほとんどの文献は観測とは無関係に均一に分布していた。
対象特徴依存雑音の概念を定式化し、軌跡特徴雑音、軌跡類似性雑音、不確実性認識雑音、言語モデル雑音などいくつかの変種を提案する。
- 参考スコア(独自算出の注目度): 10.882669528784263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from Preferences in Reinforcement Learning (PbRL) has gained attention recently, as it serves as a natural fit for complicated tasks where the reward function is not easily available. However, preferences often come with uncertainty and noise if they are not from perfect teachers. Much prior literature aimed to detect noise, but with limited types of noise and most being uniformly distributed with no connection to observations. In this work, we formalize the notion of targeted feature-dependent noise and propose several variants like trajectory feature noise, trajectory similarity noise, uncertainty-aware noise, and Language Model noise. We evaluate feature-dependent noise, where noise is correlated with certain features in complex continuous control tasks from DMControl and Meta-world. Our experiments show that in some feature-dependent noise settings, the state-of-the-art noise-robust PbRL method's learning performance is significantly deteriorated, while PbRL method with no explicit denoising can surprisingly outperform noise-robust PbRL in majority settings. We also find language model's noise exhibits similar characteristics to feature-dependent noise, thereby simulating realistic humans and call for further study in learning with feature-dependent noise robustly.
- Abstract(参考訳): 強化学習における優先度からの学習(PbRL)は、報酬関数が簡単に利用できない複雑なタスクに自然に適合するため、近年注目を集めている。
しかし、完全な教師がいない場合、好みには不確実性とノイズが伴うことが多い。
それまでの文献の多くはノイズを検出することを目的としていたが、ノイズの種類は限られており、ほとんどの文献は観測とは無関係に均一に分布していた。
本研究では,対象特徴依存雑音の概念を定式化し,軌跡特徴雑音,軌跡類似性雑音,不確実性認識雑音,言語モデル雑音などの変種を提案する。
DMControlとMeta-worldの複雑な連続制御タスクにおいて,ノイズが特定の特徴と相関する特徴依存ノイズを評価する。
実験の結果,PbRL手法の学習性能は著しく低下するが,PbRL法は明らかな雑音を伴わない場合,多数設定で驚くほど優れることがわかった。
また、言語モデルのノイズは特徴依存ノイズと類似した特徴を示し、現実的な人間をシミュレートし、特徴依存ノイズを頑健に学習する際のさらなる研究を求める。
関連論文リスト
- Mixture of Noise for Pre-Trained Model-Based Class-Incremental Learning [59.635264288605946]
クラスインクリメンタルラーニング(CIL)は,旧来の知識を維持しつつ,新たなカテゴリを継続的に学習することを目的としている。
バックボーンに軽量な微調整を適用する既存のアプローチは、依然としてドリフトを誘発する。
バックボーン一般化の劣化を軽減し,新しいタスクを適応させることを目的として,Mixture of Noise (Min)を提案する。
論文 参考訳(メタデータ) (2025-09-20T16:07:20Z) - Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文 参考訳(メタデータ) (2024-12-14T12:58:15Z) - NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition [3.726602636064681]
そこで本研究では,実雑音がシミュレーションノイズよりもはるかに難易度が高いことを示す。
ノイズロスト学習の最先端モデルが理論的に達成可能な上限よりもはるかに低くなることを示す。
論文 参考訳(メタデータ) (2024-05-13T10:20:31Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Deep Variation Prior: Joint Image Denoising and Noise Variance
Estimation without Clean Data [2.3061446605472558]
本稿では,1つの共同学習フレームワークにおける画像復調と雑音分散推定の課題について検討する。
我々は、教師なしのディープラーニングフレームワークであるDVPを構築し、デノイザを同時に学習し、ノイズ分散を推定する。
提案手法では, クリーンなトレーニング画像やノイズ推定の外部ステップは必要とせず, ノイズ画像のみを用いて最小2乗誤差を近似する。
論文 参考訳(メタデータ) (2022-09-19T17:29:32Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。