論文の概要: On the Guaranteed Almost Equivalence between Imitation Learning from
Observation and Demonstration
- arxiv url: http://arxiv.org/abs/2010.08353v1
- Date: Fri, 16 Oct 2020 12:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:57:42.026072
- Title: On the Guaranteed Almost Equivalence between Imitation Learning from
Observation and Demonstration
- Title(参考訳): 観察と実証からの模倣学習のほぼ同値性について
- Authors: Zhihao Cheng, Liu Liu, Aishan Liu, Hao Sun, Meng Fang, Dacheng Tao
- Abstract要約: 観察からの模倣学習(LfO)は、実演からの模倣学習(LfD)よりも好ましい
これまでの研究では、LfO は LfD よりも著しく劣っていることが示唆された。
本稿では,LfOが決定論的ロボット環境においてLfDとほぼ同等であることを示す。
- 参考スコア(独自算出の注目度): 89.60082738004692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning from observation (LfO) is more preferable than imitation
learning from demonstration (LfD) due to the nonnecessity of expert actions
when reconstructing the expert policy from the expert data. However, previous
studies imply that the performance of LfO is inferior to LfD by a tremendous
gap, which makes it challenging to employ LfO in practice. By contrast, this
paper proves that LfO is almost equivalent to LfD in the deterministic robot
environment, and more generally even in the robot environment with bounded
randomness. In the deterministic robot environment, from the perspective of the
control theory, we show that the inverse dynamics disagreement between LfO and
LfD approaches zero, meaning that LfO is almost equivalent to LfD. To further
relax the deterministic constraint and better adapt to the practical
environment, we consider bounded randomness in the robot environment and prove
that the optimizing targets for both LfD and LfO remain almost same in the more
generalized setting. Extensive experiments for multiple robot tasks are
conducted to empirically demonstrate that LfO achieves comparable performance
to LfD. In fact, most common robot systems in reality are the robot environment
with bounded randomness (i.e., the environment this paper considered). Hence,
our findings greatly extend the potential of LfO and suggest that we can safely
apply LfO without sacrificing the performance compared to LfD in practice.
- Abstract(参考訳): 観察からの模倣学習(LfO)は、専門家データから専門家の方針を再構築する際、専門家の行動が不要なため、実証からの模倣学習(LfD)よりも好ましい。
しかし,従来の研究では,LfOの性能がLfDより劣っていることが示唆されており,実際にLfOを採用することは困難である。
一方,本論文では,LfOは決定論的ロボット環境においてLfDとほぼ同等であり,より一般的にはランダム性を持つロボット環境においても同等であることを示す。
決定論的ロボット環境では、制御理論の観点から、LfOとLfDの逆動力学の相違がゼロに近づき、LfOはほぼLfDに等しいことを示す。
さらに, 決定論的制約を緩和し, 実用環境への適応性を高めるために, ロボット環境における有界ランダム性を考慮し, より一般化された環境でLfDとLfOの最適化対象がほぼ同じであることを証明する。
複数のロボットタスクに対する大規模な実験を行い、LfOがLfDに匹敵する性能を実証した。
実際、現実の一般的なロボットシステムは、有界ランダム性を持つロボット環境(すなわち、本論文が考慮した環境)である。
したがって,本研究はLfOの可能性を大きく拡張し,実際にLfDと比較して性能を犠牲にすることなく安全にLfOを適用できることが示唆された。
関連論文リスト
- Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL [7.988692259455583]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。
本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。
我々は,ヒトの嗜好を予測する上で,最大80.40%の精度を達成できる報酬モデルを抽出し,様々な大きさの毒性アライメントLDMについて実験を行った。
論文 参考訳(メタデータ) (2024-10-16T12:14:25Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - Large Language Models are Biased Reinforcement Learners [0.0]
大規模言語モデル (LLM) は相対値バイアスの行動的シグネチャを示す。
計算的認知モデリングにより、LLMの挙動は単純なRLアルゴリズムによってよく記述されていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-19T01:43:52Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity [88.62935593360162]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。
本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。
OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文 参考訳(メタデータ) (2023-10-08T14:22:58Z) - On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers [52.88268942796418]
内部言語モデル(ILM)のサブトラクションは、RNN-Transducerの性能向上に広く応用されている。
列識別訓練は, 理論的, 経験的両面からILMサブトラクションと強く相関していることを示す。
論文 参考訳(メタデータ) (2023-09-25T13:35:28Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。