論文の概要: Chain of Thought Imitation with Procedure Cloning
- arxiv url: http://arxiv.org/abs/2205.10816v1
- Date: Sun, 22 May 2022 13:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 00:36:33.054066
- Title: Chain of Thought Imitation with Procedure Cloning
- Title(参考訳): プロシージャクローニングによる思考模倣の連鎖
- Authors: Mengjiao Yang, Dale Schuurmans, Pieter Abbeel, Ofir Nachum
- Abstract要約: 本稿では,一連の専門家計算を模倣するために,教師付きシーケンス予測を適用したプロシージャクローニングを提案する。
本研究では、専門家の行動の中間計算を模倣することで、プロシージャのクローン化により、未知の環境構成に顕著な一般化を示すポリシーを学習できることを示す。
- 参考スコア(独自算出の注目度): 129.62135987416164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning aims to extract high-performance policies from logged
demonstrations of expert behavior. It is common to frame imitation learning as
a supervised learning problem in which one fits a function approximator to the
input-output mapping exhibited by the logged demonstrations (input observations
to output actions). While the framing of imitation learning as a supervised
input-output learning problem allows for applicability in a wide variety of
settings, it is also an overly simplistic view of the problem in situations
where the expert demonstrations provide much richer insight into expert
behavior. For example, applications such as path navigation, robot
manipulation, and strategy games acquire expert demonstrations via planning,
search, or some other multi-step algorithm, revealing not just the output
action to be imitated but also the procedure for how to determine this action.
While these intermediate computations may use tools not available to the agent
during inference (e.g., environment simulators), they are nevertheless
informative as a way to explain an expert's mapping of state to actions. To
properly leverage expert procedure information without relying on the
privileged tools the expert may have used to perform the procedure, we propose
procedure cloning, which applies supervised sequence prediction to imitate the
series of expert computations. This way, procedure cloning learns not only what
to do (i.e., the output action), but how and why to do it (i.e., the
procedure). Through empirical analysis on navigation, simulated robotic
manipulation, and game-playing environments, we show that imitating the
intermediate computations of an expert's behavior enables procedure cloning to
learn policies exhibiting significant generalization to unseen environment
configurations, including those configurations for which running the expert's
procedure directly is infeasible.
- Abstract(参考訳): 模倣学習は、専門家行動のログ化されたデモンストレーションから高性能なポリシーを抽出することを目的としている。
模倣学習を、ログされたデモンストレーション(出力アクションに対する入力観察)によって示される入出力マッピングに近似関数を適合させる教師付き学習問題として捉えるのが一般的である。
教師付き入力出力学習問題としての模倣学習の枠組みは、幅広い設定で適用可能であるが、専門家のデモンストレーションが専門家の行動に対してより豊かな洞察を提供する状況において、問題を単純化した見解である。
例えば、パスナビゲーション、ロボット操作、戦略ゲームといったアプリケーションは、計画、探索、その他の多段階アルゴリズムを通じて専門家によるデモンストレーションを取得し、模倣される出力アクションだけでなく、このアクションを決定する手順も明らかにする。
これらの中間計算は推論中にエージェントが使用できないツール(例えば環境シミュレータ)を使用するが、専門家の状態とアクションのマッピングを説明する方法としては有益である。
専門家が使用していたであろう特権的ツールに頼らずに専門家手続き情報を適切に活用するために,一連の専門家計算を模倣するために教師付きシーケンス予測を適用した手順クローンを提案する。
このように、プロシージャのクローニングは何をすべきか(つまり、出力アクション)だけでなく、その方法と理由(つまり、手順)を学習する。
ナビゲーション,シミュレーションロボット操作,ゲームプレイ環境に関する経験的分析により,専門家の行動の中間計算を模倣することで,専門家の手順を直接実行するような構成を含む,未知の環境設定に対する重要な一般化を示すポリシーを手順クローンが学習できることが示されている。
関連論文リスト
- Unveiling the Decision-Making Process in Reinforcement Learning with Genetic Programming [4.249842620609683]
不理解性は、現実世界で(深い)強化学習を使用するための選択肢ではない。
我々は、すでに訓練されたエージェントの意思決定プロセスの説明を生成するための遺伝的プログラミングフレームワークを提案する。
私たちは性能に匹敵するが、ハードウェアリソースや計算時間を大幅に削減する必要があることを示しています。
論文 参考訳(メタデータ) (2024-07-20T00:45:03Z) - A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:12:16Z) - Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of Instructional Videos [16.333295670635557]
本稿では,エージェントが行動手順を論理的に構築し,戦略的手続き計画を構築する能力について考察する。
この計画は、実生活の指導ビデオに示されているように、初期視覚観察から対象視結果へのナビゲートに不可欠である。
我々は,学習データから抽出した確率論的手続き的知識グラフを利用する,知識向上型プロジェクションプランニングシステムKEPPを提案する。
論文 参考訳(メタデータ) (2024-03-05T08:55:51Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Procedure-Aware Pretraining for Instructional Video Understanding [58.214549181779006]
手続き理解の鍵となる課題は、未ラベルのビデオから手続き的知識を抽出できることである。
私たちの主な洞察は、命令ビデオが同じまたは異なるタスクのインスタンス間で繰り返されるステップのシーケンスを描いていることです。
このグラフを使用して擬似ラベルを生成し、よりアクセスしやすい形式で手続き的知識を符号化するビデオ表現を訓練することができる。
論文 参考訳(メタデータ) (2023-03-31T17:41:31Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。