論文の概要: TREND: Tri-teaching for Robust Preference-based Reinforcement Learning with Demonstrations
- arxiv url: http://arxiv.org/abs/2505.06079v1
- Date: Fri, 09 May 2025 14:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.290553
- Title: TREND: Tri-teaching for Robust Preference-based Reinforcement Learning with Demonstrations
- Title(参考訳): TREND:デモによるロバストな推論に基づく強化学習のためのトライティーチング
- Authors: Shuaiyi Huang, Mara Levy, Anubhav Gupta, Daniel Ekpo, Ruijie Zheng, Abhinav Shrivastava,
- Abstract要約: TRENDは、少数の専門家によるデモンストレーションと、効果的なノイズ緩和のためのトリティーチング戦略を統合する、新しいフレームワークである。
様々なロボット操作タスクにおけるTRENDの評価を行い、騒音レベルが40%である場合でも、最大90%の成功率を達成した。
- 参考スコア(独自算出の注目度): 35.403773147399185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference feedback collected by human or VLM annotators is often noisy, presenting a significant challenge for preference-based reinforcement learning that relies on accurate preference labels. To address this challenge, we propose TREND, a novel framework that integrates few-shot expert demonstrations with a tri-teaching strategy for effective noise mitigation. Our method trains three reward models simultaneously, where each model views its small-loss preference pairs as useful knowledge and teaches such useful pairs to its peer network for updating the parameters. Remarkably, our approach requires as few as one to three expert demonstrations to achieve high performance. We evaluate TREND on various robotic manipulation tasks, achieving up to 90% success rates even with noise levels as high as 40%, highlighting its effective robustness in handling noisy preference feedback. Project page: https://shuaiyihuang.github.io/publications/TREND.
- Abstract(参考訳): 人間やVLMアノテータによって収集された選好フィードバックは、しばしばうるさく、正確な選好ラベルに依存する選好に基づく強化学習において重要な課題が提示される。
この課題に対処するために,数発のエキスパートによるデモンストレーションと効果的なノイズ軽減のためのトリティーチング戦略を統合する新しいフレームワークTRENDを提案する。
提案手法は3つの報奨モデルを同時に訓練し,各モデルがそれぞれの小さめの選好ペアを有用な知識とみなし,パラメータを更新するためのピアネットワークにそのような有用なペアを教える。
注目すべきは、高いパフォーマンスを達成するためには、1~3つの専門家によるデモンストレーションが必要です。
騒音レベルが40%である場合でも、TRENDを最大90%の成功率で評価し、ノイズの多い選好フィードバックの処理において有効なロバスト性を強調した。
プロジェクトページ: https://shuaiyihuang.github.io/publications/TREND
関連論文リスト
- Robust Noisy Correspondence Learning via Self-Drop and Dual-Weight [11.523154025649758]
クラウドソーシング(Crowd-sourcing)あるいはWebクローリング(web crawling)は、マッチしないペアを導入する。
現在のアプローチでは、ディープニューラルネットワークの効果を利用してノイズを識別し、再重み付けを行う。
本稿では,データ分割による精巧なデータ処理を実現するための,新たなセルフドロップとデュアルウェイトアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-09T03:06:10Z) - Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Large Language Model Enhanced Hard Sample Identification for Denoising Recommendation [4.297249011611168]
暗黙のフィードバックは、しばしばレコメンデーションシステムを構築するために使われる。
従来の研究では、分散したパターンに基づいてノイズの多いサンプルを識別することで、これを緩和しようと試みてきた。
大規模言語モデル強化型ハードサンプルデノゲーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T14:57:09Z) - Dual Test-time Training for Out-of-distribution Recommender System [91.15209066874694]
DT3ORと呼ばれるOODレコメンデーションのための新しいDual Test-Time-Trainingフレームワークを提案する。
DT3ORでは、テスト期間中にモデル適応機構を導入し、リコメンデーションモデルを慎重に更新する。
我々の知る限りでは、テストタイムトレーニング戦略を通じてOODレコメンデーションに対処する最初の研究である。
論文 参考訳(メタデータ) (2024-07-22T13:27:51Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Learning Robust Recommender from Noisy Implicit Feedback [140.7090392887355]
我々はAdaptive Denoising Training(ADT)という新しいトレーニング戦略を提案する。
ADTは2つのパラダイム(Trncated LossとReweighted Loss)によるノイズ相互作用を適応的に引き起こす
我々は、追加のフィードバック(例えば、評価)を補助信号とみなし、追加のフィードバックをADTに組み込むための3つの戦略を提案する。
論文 参考訳(メタデータ) (2021-12-02T12:12:02Z) - Towards Sample-efficient Apprenticeship Learning from Suboptimal
Demonstration [1.6114012813668934]
本稿では, トラジェクトリ劣化に対する系統的代替策を検討するために, S3RRを提案する。
S3RRは、最適でないデモンストレーションフレームワークから最先端の学習に対して、地道と同等あるいはより良い報酬相関を学習できる。
論文 参考訳(メタデータ) (2021-10-08T19:15:32Z) - Noisy Self-Knowledge Distillation for Text Summarization [83.49809205891496]
我々は, テキスト要約に自己知識蒸留を適用し, 最大習熟時の問題を緩和できると考えている。
学生要約モデルは,学習の正規化を支援するスムーズなラベルを生成する教師の指導によって訓練される。
筆者らは,3つのベンチマークを用いて,事前学習と非事前学習の両方のパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2020-09-15T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。