Fugu-MT 論文翻訳(概要): On the Guaranteed Almost Equivalence between Imitation Learning from Observation and Demonstration

論文の概要: On the Guaranteed Almost Equivalence between Imitation Learning from Observation and Demonstration

arxiv url: http://arxiv.org/abs/2010.08353v1
Date: Fri, 16 Oct 2020 12:42:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 21:57:42.026072
Title: On the Guaranteed Almost Equivalence between Imitation Learning from Observation and Demonstration
Title（参考訳）: 観察と実証からの模倣学習のほぼ同値性について
Authors: Zhihao Cheng, Liu Liu, Aishan Liu, Hao Sun, Meng Fang, Dacheng Tao
Abstract要約: 観察からの模倣学習(LfO)は、実演からの模倣学習(LfD)よりも好ましいこれまでの研究では、LfO は LfD よりも著しく劣っていることが示唆された。本稿では,LfOが決定論的ロボット環境においてLfDとほぼ同等であることを示す。
参考スコア（独自算出の注目度）: 89.60082738004692
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Imitation learning from observation (LfO) is more preferable than imitation learning from demonstration (LfD) due to the nonnecessity of expert actions when reconstructing the expert policy from the expert data. However, previous studies imply that the performance of LfO is inferior to LfD by a tremendous gap, which makes it challenging to employ LfO in practice. By contrast, this paper proves that LfO is almost equivalent to LfD in the deterministic robot environment, and more generally even in the robot environment with bounded randomness. In the deterministic robot environment, from the perspective of the control theory, we show that the inverse dynamics disagreement between LfO and LfD approaches zero, meaning that LfO is almost equivalent to LfD. To further relax the deterministic constraint and better adapt to the practical environment, we consider bounded randomness in the robot environment and prove that the optimizing targets for both LfD and LfO remain almost same in the more generalized setting. Extensive experiments for multiple robot tasks are conducted to empirically demonstrate that LfO achieves comparable performance to LfD. In fact, most common robot systems in reality are the robot environment with bounded randomness (i.e., the environment this paper considered). Hence, our findings greatly extend the potential of LfO and suggest that we can safely apply LfO without sacrificing the performance compared to LfD in practice.
Abstract（参考訳）: 観察からの模倣学習(LfO)は、専門家データから専門家の方針を再構築する際、専門家の行動が不要なため、実証からの模倣学習(LfD)よりも好ましい。しかし,従来の研究では,LfOの性能がLfDより劣っていることが示唆されており,実際にLfOを採用することは困難である。一方,本論文では,LfOは決定論的ロボット環境においてLfDとほぼ同等であり,より一般的にはランダム性を持つロボット環境においても同等であることを示す。決定論的ロボット環境では、制御理論の観点から、LfOとLfDの逆動力学の相違がゼロに近づき、LfOはほぼLfDに等しいことを示す。さらに, 決定論的制約を緩和し, 実用環境への適応性を高めるために, ロボット環境における有界ランダム性を考慮し, より一般化された環境でLfDとLfOの最適化対象がほぼ同じであることを証明する。複数のロボットタスクに対する大規模な実験を行い、LfOがLfDに匹敵する性能を実証した。実際、現実の一般的なロボットシステムは、有界ランダム性を持つロボット環境(すなわち、本論文が考慮した環境)である。したがって,本研究はLfOの可能性を大きく拡張し,実際にLfDと比較して性能を犠牲にすることなく安全にLfOを適用できることが示唆された。

関連論文リスト

LTLCrit: A Temporal Logic-based LLM Critic for Safe and Efficient Embodied Agents [5.299803738642663]
大規模言語モデル(LLM)は、静的環境におけるタスクの推論と一般的な意思決定において有望であることを示す。本稿では,LLM アクターを軌跡レベルの LLM 評論家である byCrit に案内するモジュラーアクター批判アーキテクチャを提案する。我々のセットアップは、言語モデルの推論強度と形式論理の保証を組み合わせる。
論文参考訳（メタデータ） (2025-07-04T04:53:53Z)
Reverse Engineering Human Preferences with Reinforcement Learning [14.508050809497847]
大規模言語モデル(LLM)は、人間の嗜好を予測するために訓練された他のLLMによって日常的に評価される。これまでの研究では、候補LLMが生成した回答をポストホックで編集して、審査員LLMが割り当てたスコアを最大化できることが示されている。我々は、異なるアプローチを採用し、判定LLMによって提供される信号を、逆向きにモデルをチューニングする報酬として利用する。
論文参考訳（メタデータ） (2025-05-21T17:48:16Z)
Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。 DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-05T23:54:53Z)
CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language Models [37.476241509187304]
大規模言語モデル(LLM)は、広範囲なデータに対する事前学習を通じて、優れたパフォーマンスを達成する。基本的なメカニズムにおける解釈可能性の欠如は、特定のアプリケーションに対してLLMを効果的に操る能力を制限する。本研究では,眼球運動計測を用いた認知的視点からLLMのメカニズムを考察する。
論文参考訳（メタデータ） (2024-10-23T09:40:15Z)
ICPL: Few-shot In-context Preference Learning via LLMs [15.84585737510038]
我々は,Large Language Models (LLM) が,サンプル効率のよい選好学習を実現するために,ネイティブな選好学習機能を備えていることを示す。我々は,LLMの文脈内学習機能を用いて,人間のクエリ非効率を抑えるインコンテキスト優先学習(ICPL)を提案する。
論文参考訳（メタデータ） (2024-10-22T17:53:34Z)
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL [7.988692259455583]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。我々は,ヒトの嗜好を予測する上で,最大80.40%の精度を達成できる報酬モデルを抽出し,様々な大きさの毒性アライメントLDMについて実験を行った。
論文参考訳（メタデータ） (2024-10-16T12:14:25Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。 SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文参考訳（メタデータ） (2024-07-16T12:21:29Z)
RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。 GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文参考訳（メタデータ） (2024-06-16T17:26:44Z)
Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文参考訳（メタデータ） (2024-05-24T03:53:57Z)
Large Language Models are Biased Reinforcement Learners [0.0]
大規模言語モデル (LLM) は相対値バイアスの行動的シグネチャを示す。計算的認知モデリングにより、LLMの挙動は単純なRLアルゴリズムによってよく記述されていることが明らかになった。
論文参考訳（メタデータ） (2024-05-19T01:43:52Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity [88.62935593360162]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。 OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文参考訳（メタデータ） (2023-10-08T14:22:58Z)
On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers [52.88268942796418]
内部言語モデル(ILM)のサブトラクションは、RNN-Transducerの性能向上に広く応用されている。列識別訓練は, 理論的, 経験的両面からILMサブトラクションと強く相関していることを示す。
論文参考訳（メタデータ） (2023-09-25T13:35:28Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。