論文の概要: On the Guaranteed Almost Equivalence between Imitation Learning from
Observation and Demonstration
- arxiv url: http://arxiv.org/abs/2010.08353v1
- Date: Fri, 16 Oct 2020 12:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:57:42.026072
- Title: On the Guaranteed Almost Equivalence between Imitation Learning from
Observation and Demonstration
- Title(参考訳): 観察と実証からの模倣学習のほぼ同値性について
- Authors: Zhihao Cheng, Liu Liu, Aishan Liu, Hao Sun, Meng Fang, Dacheng Tao
- Abstract要約: 観察からの模倣学習(LfO)は、実演からの模倣学習(LfD)よりも好ましい
これまでの研究では、LfO は LfD よりも著しく劣っていることが示唆された。
本稿では,LfOが決定論的ロボット環境においてLfDとほぼ同等であることを示す。
- 参考スコア(独自算出の注目度): 89.60082738004692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning from observation (LfO) is more preferable than imitation
learning from demonstration (LfD) due to the nonnecessity of expert actions
when reconstructing the expert policy from the expert data. However, previous
studies imply that the performance of LfO is inferior to LfD by a tremendous
gap, which makes it challenging to employ LfO in practice. By contrast, this
paper proves that LfO is almost equivalent to LfD in the deterministic robot
environment, and more generally even in the robot environment with bounded
randomness. In the deterministic robot environment, from the perspective of the
control theory, we show that the inverse dynamics disagreement between LfO and
LfD approaches zero, meaning that LfO is almost equivalent to LfD. To further
relax the deterministic constraint and better adapt to the practical
environment, we consider bounded randomness in the robot environment and prove
that the optimizing targets for both LfD and LfO remain almost same in the more
generalized setting. Extensive experiments for multiple robot tasks are
conducted to empirically demonstrate that LfO achieves comparable performance
to LfD. In fact, most common robot systems in reality are the robot environment
with bounded randomness (i.e., the environment this paper considered). Hence,
our findings greatly extend the potential of LfO and suggest that we can safely
apply LfO without sacrificing the performance compared to LfD in practice.
- Abstract(参考訳): 観察からの模倣学習(LfO)は、専門家データから専門家の方針を再構築する際、専門家の行動が不要なため、実証からの模倣学習(LfD)よりも好ましい。
しかし,従来の研究では,LfOの性能がLfDより劣っていることが示唆されており,実際にLfOを採用することは困難である。
一方,本論文では,LfOは決定論的ロボット環境においてLfDとほぼ同等であり,より一般的にはランダム性を持つロボット環境においても同等であることを示す。
決定論的ロボット環境では、制御理論の観点から、LfOとLfDの逆動力学の相違がゼロに近づき、LfOはほぼLfDに等しいことを示す。
さらに, 決定論的制約を緩和し, 実用環境への適応性を高めるために, ロボット環境における有界ランダム性を考慮し, より一般化された環境でLfDとLfOの最適化対象がほぼ同じであることを証明する。
複数のロボットタスクに対する大規模な実験を行い、LfOがLfDに匹敵する性能を実証した。
実際、現実の一般的なロボットシステムは、有界ランダム性を持つロボット環境(すなわち、本論文が考慮した環境)である。
したがって,本研究はLfOの可能性を大きく拡張し,実際にLfDと比較して性能を犠牲にすることなく安全にLfOを適用できることが示唆された。
関連論文リスト
- Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware
Classification [7.696798306913988]
フェアネス定義に適合するフェアネス規則を概説する枠組みを導入する。
本稿では,テキスト内学習のための構成と,RAGを用いてテキスト内デモを選択する手順について検討する。
異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-28T17:29:27Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for
Pruning LLMs to High Sparsity [81.61101014156924]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。
本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。
OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文 参考訳(メタデータ) (2023-10-08T14:22:58Z) - RLAIF: Scaling Reinforcement Learning from Human Feedback with AI
Feedback [5.469395454378616]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の好みを合わせるのに有効であることが証明されている。
AI Feedback (RLAIF) の RL は、強力なオフザシェルフ LLM を活用して、人間のアノテータの代わりに好みを生成する、有望な代替手段を提供する。
以上の結果から,RLHFのスケーラビリティ限界に対する潜在的な解決策として,RLAIFが人間レベルの性能を実現することが示唆された。
論文 参考訳(メタデータ) (2023-09-01T05:53:33Z) - Certified Robustness for Large Language Models with Self-Denoising [42.916661225753145]
本稿では,大言語モデル (LLM) を用いて, 劣化した入力を自己認識的に認知する手法を提案する。
本手法は,証明された堅牢性と実証的堅牢性の両方の下で,既存の認証方法よりも優れる。
論文 参考訳(メタデータ) (2023-07-14T05:40:24Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - FedDANE: A Federated Newton-Type Method [49.9423212899788]
フェデレートラーニングは、大規模分散データセット上で低統計モデルを共同で学習することを目的としている。
我々は、フェデレーション学習を扱うために、DANEから適応する最適化であるFedDANEを提案する。
論文 参考訳(メタデータ) (2020-01-07T07:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。