論文の概要: Robust Offline Imitation Learning from Diverse Auxiliary Data
- arxiv url: http://arxiv.org/abs/2410.03626v1
- Date: Fri, 4 Oct 2024 17:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 20:58:02.800452
- Title: Robust Offline Imitation Learning from Diverse Auxiliary Data
- Title(参考訳): 分散補助データを用いたロバストオフライン模倣学習
- Authors: Udita Ghosh, Dripta S. Raychaudhuri, Jiachen Li, Konstantinos Karydis, Amit K. Roy-Chowdhury,
- Abstract要約: オフラインの模倣学習は、専門家による一連のデモンストレーションからのみポリシーを学ぶことができる。
最近の研究には、専門家データとともに多数の補助的なデモンストレーションが組み込まれている。
逆補助データ(ROIDA)からのロバストオフライン模倣を提案する。
- 参考スコア(独自算出の注目度): 33.14745744587572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline imitation learning enables learning a policy solely from a set of expert demonstrations, without any environment interaction. To alleviate the issue of distribution shift arising due to the small amount of expert data, recent works incorporate large numbers of auxiliary demonstrations alongside the expert data. However, the performance of these approaches rely on assumptions about the quality and composition of the auxiliary data. However, they are rarely successful when those assumptions do not hold. To address this limitation, we propose Robust Offline Imitation from Diverse Auxiliary Data (ROIDA). ROIDA first identifies high-quality transitions from the entire auxiliary dataset using a learned reward function. These high-reward samples are combined with the expert demonstrations for weighted behavioral cloning. For lower-quality samples, ROIDA applies temporal difference learning to steer the policy towards high-reward states, improving long-term returns. This two-pronged approach enables our framework to effectively leverage both high and low-quality data without any assumptions. Extensive experiments validate that ROIDA achieves robust and consistent performance across multiple auxiliary datasets with diverse ratios of expert and non-expert demonstrations. ROIDA effectively leverages unlabeled auxiliary data, outperforming prior methods reliant on specific data assumptions.
- Abstract(参考訳): オフラインの模倣学習は、環境の相互作用なしに、専門家によるデモンストレーションのセットからのみポリシーを学ぶことができる。
少数の専門家データによる分布シフトの問題を軽減するため、近年の研究では、専門家データと並行して多数の補助的なデモンストレーションが組み込まれている。
しかし、これらの手法の性能は補助データの品質と構成に関する仮定に依存している。
しかし、これらの仮定が守られなければ成功することは滅多にない。
この制限に対処するために、Diverse Auxiliary Data (ROIDA) からのRobust Offline Imitationを提案する。
ROIDAはまず、学習された報酬関数を使用して、補助データセット全体からの高品質な遷移を特定する。
これらのハイリワードサンプルは、重み付けされた行動クローニングのための専門家のデモンストレーションと組み合わせられる。
低品質のサンプルでは、ROIDAは時間差学習を適用して、高水準の状態に対する政策を操り、長期的なリターンを改善する。
この2段階のアプローチにより、私たちのフレームワークは仮定なしで、高品質なデータと低品質のデータの両方を効果的に活用できます。
大規模な実験により、ROIDAは専門家と非専門家の多様な比率で複数の補助データセット間で堅牢で一貫したパフォーマンスを達成することが検証された。
ROIDAはラベルなしの補助データを効果的に活用し、特定のデータ仮定に依存する事前の手法より優れている。
関連論文リスト
- Out-Of-Distribution Detection with Diversification (Provably) [75.44158116183483]
機械学習モデルの信頼性確保には、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
近年の進歩は、トレーニングにおいて容易にアクセス可能な補助的外れ値(例えば、Webや他のデータセットのデータ)を活用することに焦点を当てている。
本稿では,OOD検出のためのダイバーシティ誘導混合法(diversity-induced Mixup for OOD detection,diverseMix)を提案する。
論文 参考訳(メタデータ) (2024-11-21T11:56:32Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - RoPDA: Robust Prompt-based Data Augmentation for Low-Resource Named
Entity Recognition [10.03246698225533]
低リソースNERのためのロバストプロンプトベースデータ拡張(RoPDA)
継続的なプロンプトを持つ事前学習言語モデル(PLM)に基づいて、RoPDAはエンティティ拡張とコンテキスト拡張を実行する。
異なるドメインの3つのベンチマークの実験では、RoPDAは強いベースラインで大幅に改善されている。
論文 参考訳(メタデータ) (2023-07-11T14:44:14Z) - Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled
Learning [42.26185670834855]
Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。
本稿では、新しいトレーニングパイプラインを用いて、一般的に使われているnnPUの改善に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-30T05:48:31Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise
Datasets [15.206465106699293]
近年のオフライン強化学習法は、経験の固定されたデータセットから高性能なポリシーを学習することに成功している。
我々の研究は、この手法を、ほぼ全て最適下雑音からなる膨大なデータセットに拡張する能力を評価する。
この修正により、オフラインエージェントは、専門家のアクションが65:1に近いデータセットを使用して、ベンチマークタスクで最先端のポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-10T03:55:17Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。