Fugu-MT 論文翻訳(概要): A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise Datasets

論文の概要: A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise Datasets

arxiv url: http://arxiv.org/abs/2110.04698v1
Date: Sun, 10 Oct 2021 03:55:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-16 17:56:51.713382
Title: A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise Datasets
Title（参考訳）: 高ノイズデータセットにおけるアドバンテージフィルターによる行動クローニング
Authors: Jake Grigsby, Yanjun Qi
Abstract要約: 近年のオフライン強化学習法は、経験の固定されたデータセットから高性能なポリシーを学習することに成功している。我々の研究は、この手法を、ほぼ全て最適下雑音からなる膨大なデータセットに拡張する能力を評価する。この修正により、オフラインエージェントは、専門家のアクションが65:1に近いデータセットを使用して、ベンチマークタスクで最先端のポリシーを学ぶことができる。
参考スコア（独自算出の注目度）: 8.530197034492797
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent Offline Reinforcement Learning methods have succeeded in learning high-performance policies from fixed datasets of experience. A particularly effective approach learns to first identify and then mimic optimal decision-making strategies. Our work evaluates this method's ability to scale to vast datasets consisting almost entirely of sub-optimal noise. A thorough investigation on a custom benchmark helps identify several key challenges involved in learning from high-noise datasets. We re-purpose prioritized experience sampling to locate expert-level demonstrations among millions of low-performance samples. This modification enables offline agents to learn state-of-the-art policies in benchmark tasks using datasets where expert actions are outnumbered nearly 65:1.
Abstract（参考訳）: 最近のオフライン強化学習手法は、経験の固定データセットからハイパフォーマンスなポリシーを学ぶことに成功している。特に効果的なアプローチは、まず最適な意思決定戦略を識別し、模倣することを学ぶ。本研究は,この手法が,ほぼすべてのサブ最適ノイズからなる巨大なデータセットにスケールする能力を評価する。カスタムベンチマークに関する詳細な調査は、高ノイズデータセットからの学習に関わるいくつかの重要な課題を特定するのに役立つ。私たちは、数百万の低パフォーマンスサンプルのエキスパートレベルのデモンストレーションを見つけるために、優先順位付けされた経験サンプルを再利用しました。この修正により、オフラインエージェントは、専門家のアクションが65:1に近いデータセットを使用して、ベンチマークタスクで最先端のポリシーを学ぶことができる。

関連論文リスト

From Data-Centric to Sample-Centric: Enhancing LLM Reasoning via Progressive Optimization [7.531052649961168]
検証可能な報酬付き強化学習(RLVR)は、最近、大規模言語モデル(LLM)の推論能力を進歩させた。サンプル中心の観点からRLVRを調査し,プログレッシブ最適化手法の枠組みであるLPPOを導入する。私たちの仕事は、データボリュームを単にスケールアップするのではなく、小さな信頼性のある高品質なデモを最大限に活用する方法という、重要な問題に対処しています。
論文参考訳（メタデータ） (2025-07-09T06:05:28Z)
Reinforcement Learning via Implicit Imitation Guidance [49.88208134736617]
自然なアプローチは、訓練中の正規化や参照ポリシーの取得など、模倣学習の目的を取り入れることである。提案手法では,条件に付加されたノイズによる探索を導出するための先行データのみを用いて,明示的な行動クローニング制約の必要性を回避することを提案する。提案手法は、7つの模擬連続制御タスクにまたがるオフライン手法による事前強化学習よりも最大2～3倍向上する。
論文参考訳（メタデータ） (2025-06-09T07:32:52Z)
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文参考訳（メタデータ） (2024-10-23T17:58:45Z)
Robust Offline Imitation Learning from Diverse Auxiliary Data [33.14745744587572]
オフラインの模倣学習は、専門家による一連のデモンストレーションからのみポリシーを学ぶことができる。最近の研究には、専門家データとともに多数の補助的なデモンストレーションが組み込まれている。逆補助データ(ROIDA)からのロバストオフライン模倣を提案する。
論文参考訳（メタデータ） (2024-10-04T17:30:54Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
DIDA: Denoised Imitation Learning based on Domain Adaptation [28.36684781402964]
ノイズのあるデータから学習するためには、模倣者が必要とされるLND(Learning from Noisy Demonstrations)の問題に焦点を当てる。本稿では、雑音レベルと専門知識レベルを区別する2つの識別器を設計する、ドメイン適応(DIDA)に基づくDenoized Imitation Learningを提案する。 MuJoCoの実験結果は、DIDAが様々な種類のノイズを持つデモから挑戦的な模倣タスクをうまく処理できることを示した。
論文参考訳（メタデータ） (2024-04-04T11:29:05Z)
One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-12-16T03:33:12Z)
Benchmarking of Query Strategies: Towards Future Deep Active Learning [0.0]
深層行動学習(DAL)のためのクエリ戦略をベンチマークする DALは、クエリ戦略によって選択された高品質なサンプルに注釈を付けることで、アノテーションのコストを削減する。
論文参考訳（メタデータ） (2023-12-10T04:17:16Z)
Explored An Effective Methodology for Fine-Grained Snake Recognition [8.908667065576632]
我々は,様々なメタ情報を活用し,きめ細かい識別を支援するために,強力なマルチモーダルバックボーンを設計する。ラベルのないデータセットを最大限に活用するために,自己教師付き学習と教師付き学習共同学習を用いる。本手法は,個人用および公開用データセットにおいて,それぞれ92.7%,89.4%のマクロf1スコアを達成できる。
論文参考訳（メタデータ） (2022-07-24T02:19:15Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文参考訳（メタデータ） (2020-11-03T07:49:15Z)
Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文参考訳（メタデータ） (2020-10-19T16:53:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。