論文の概要: Sample-Efficient Behavior Cloning Using General Domain Knowledge
- arxiv url: http://arxiv.org/abs/2501.16546v1
- Date: Mon, 27 Jan 2025 22:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:41:41.065068
- Title: Sample-Efficient Behavior Cloning Using General Domain Knowledge
- Title(参考訳): 汎用ドメイン知識を用いたサンプル効率の良い行動クローニング
- Authors: Feiyu Zhu, Jean Oh, Reid Simmons,
- Abstract要約: 我々は、自然言語で表現された専門的なドメイン知識に基づいてポリシー構造をインスタンス化するために、大規模言語モデルのコーディング能力を使用します。
月面着陸機とカーレースのタスクを用いた実験では,最大5回のデモンストレーションでタスクの解き方を学習し,騒音対策に頑健である。
- 参考スコア(独自算出の注目度): 11.81924485548362
- License:
- Abstract: Behavior cloning has shown success in many sequential decision-making tasks by learning from expert demonstrations, yet they can be very sample inefficient and fail to generalize to unseen scenarios. One approach to these problems is to introduce general domain knowledge, such that the policy can focus on the essential features and may generalize to unseen states by applying that knowledge. Although this knowledge is easy to acquire from the experts, it is hard to be combined with learning from individual examples due to the lack of semantic structure in neural networks and the time-consuming nature of feature engineering. To enable learning from both general knowledge and specific demonstration trajectories, we use a large language model's coding capability to instantiate a policy structure based on expert domain knowledge expressed in natural language and tune the parameters in the policy with demonstrations. We name this approach the Knowledge Informed Model (KIM) as the structure reflects the semantics of expert knowledge. In our experiments with lunar lander and car racing tasks, our approach learns to solve the tasks with as few as 5 demonstrations and is robust to action noise, outperforming the baseline model without domain knowledge. This indicates that with the help of large language models, we can incorporate domain knowledge into the structure of the policy, increasing sample efficiency for behavior cloning.
- Abstract(参考訳): 行動クローニングは多くのシーケンシャルな意思決定タスクにおいて、専門家によるデモンストレーションから学ぶことで成功している。
これらの問題の1つのアプローチは、一般的なドメイン知識を導入し、ポリシーが本質的な特徴に焦点を合わせることができ、その知識を適用して、目に見えない状態に一般化することができるようにすることである。
この知識は専門家から容易に習得できるが、ニューラルネットワークのセマンティック構造が欠如していることや、機能工学の時間を要する性質のため、個々の例から学ぶことは困難である。
一般知識と具体的な実演軌跡の両方から学習するために,我々は,自然言語で表現されたエキスパートドメイン知識に基づいて政策構造をインスタンス化し,そのパラメータを実演で調整するために,大規模言語モデルのコーディング能力を利用する。
我々はこの手法を知識情報モデル (KIM) と呼ぶ。
月面着陸機とカーレースのタスクを用いた実験では,最大5回のデモンストレーションでタスクの解き方を学習し,ノイズを発生させることが強く,ドメイン知識のないベースラインモデルよりも優れていた。
これは、大きな言語モデルの助けを借りて、ドメイン知識をポリシーの構造に組み込むことができ、行動クローニングのサンプル効率が向上することを示している。
関連論文リスト
- Knowledge Tagging with Large Language Model based Multi-Agent System [17.53518487546791]
本稿では,従来のアルゴリズムの限界に対処するマルチエージェントシステムについて検討する。
我々は,従来の手法が抱えていた課題を克服する上で,LLMベースのマルチエージェントシステムの可能性を強調した。
論文 参考訳(メタデータ) (2024-09-12T21:39:01Z) - Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。
算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。
強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文 参考訳(メタデータ) (2024-06-19T23:30:01Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Does Your Model Think Like an Engineer? Explainable AI for Bearing Fault
Detection with Deep Learning [20.488966890562004]
本研究では,振動信号から転がり要素軸受の欠陥を検知する作業に焦点をあてる。
本稿では,モデルの基本となる論理が専門家の推論とどの程度うまく対応しているかを評価するための,新しい,ドメイン固有の属性フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:58:11Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Injecting Domain Knowledge in Language Models for Task-Oriented Dialogue
Systems [9.983102639594899]
プレトレーニング言語モデル(PLM)は、NLPアプリケーションにまたがる最先端の言語モデルである。
事前学習データに自然に発生することのないドメイン固有の知識は欠如している。
従来の研究では、下流の異なるNLPタスクに象徴的な知識を持つPLMが強化された。
論文 参考訳(メタデータ) (2022-12-15T20:15:05Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。