論文の概要: Learning Performance Graphs from Demonstrations via Task-Based
Evaluations
- arxiv url: http://arxiv.org/abs/2204.05909v1
- Date: Tue, 12 Apr 2022 16:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 14:33:17.642725
- Title: Learning Performance Graphs from Demonstrations via Task-Based
Evaluations
- Title(参考訳): タスクベース評価によるデモからパフォーマンスグラフを学ぶ
- Authors: Aniruddh G. Puranic, Jyotirmoy V. Deshmukh and Stefanos Nikolaidis
- Abstract要約: 本稿では,ユーザが提供する実演からパフォーマンスグラフを直接学習するアルゴリズムを提案する。
学習したパフォーマンスグラフを用いて生成された報酬関数は、手動で指定したパフォーマンスグラフと類似したポリシーを生成する。
- 参考スコア(独自算出の注目度): 4.038632011471539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the learning from demonstration (LfD) paradigm, understanding and
evaluating the demonstrated behaviors plays a critical role in extracting
control policies for robots. Without this knowledge, a robot may infer
incorrect reward functions that lead to undesirable or unsafe control policies.
Recent work has proposed an LfD framework where a user provides a set of formal
task specifications to guide LfD, to address the challenge of reward shaping.
However, in this framework, specifications are manually ordered in a
performance graph (a partial order that specifies relative importance between
the specifications). The main contribution of this paper is an algorithm to
learn the performance graph directly from the user-provided demonstrations, and
show that the reward functions generated using the learned performance graph
generate similar policies to those from manually specified performance graphs.
We perform a user study that shows that priorities specified by users on
behaviors in a simulated highway driving domain match the automatically
inferred performance graph. This establishes that we can accurately evaluate
user demonstrations with respect to task specifications without expert
criteria.
- Abstract(参考訳): learning from demonstration (lfd)パラダイムでは、デモされた行動の理解と評価がロボットの制御ポリシーの抽出に重要な役割を果たしている。
この知識がなければ、ロボットは不適切な報酬関数を推測し、望ましくないあるいは安全でない制御ポリシーにつながる。
最近の研究は、ユーザーが報酬形成の課題に取り組むために、LfDをガイドする正式なタスク仕様セットを提供するLfDフレームワークを提案している。
しかしながら、このフレームワークでは、仕様はパフォーマンスグラフ(仕様間の相対的な重要性を規定する部分順序)で手動で順序付けされる。
本研究の主な貢献は,ユーザが提供する実演から演奏グラフを直接学習するアルゴリズムであり,学習した演奏グラフから得られる報酬関数が,手動で指定した演奏グラフと類似したポリシーを生成することを示す。
シミュレーションされた高速道路走行領域におけるユーザの行動の優先順位が,自動推定性能グラフと一致することを示す。
これは、専門家の基準なしに、タスク仕様に関するユーザデモを正確に評価できることを示す。
関連論文リスト
- Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - Improving Node Representation by Boosting Target-Aware Contrastive Loss [10.73390567832967]
本稿では,ターゲット認識型コントラスト学習(Target-Aware Contrastive Learning,Target-Aware CL)を紹介する。
XTCLを最小化することにより、ターゲット認識CLは、ターゲットタスクとノード表現の間の相互情報を増加させる。
実験により、XTCLは2つのタスクの性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-10-04T20:08:24Z) - Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Discovering Generalizable Spatial Goal Representations via Graph-based
Active Reward Learning [17.58129740811116]
我々は、報酬学習アプローチ、グラフベースの等価マッピング(GEM)を提案する。
GEMは、オブジェクト間の重要な空間関係を示すグラフと、グラフの各エッジに対する状態同値写像による空間目標仕様を表す。
GEMは,学習目標表現の高次ベースラインに対する一般化性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-24T18:59:06Z) - Dynamic Sequential Graph Learning for Click-Through Rate Prediction [29.756257920214168]
本稿では,ユーザやアイテムに関連付けられたローカルサブグラフからの協調情報を活用することで,ユーザの表現を向上する新しい手法を提案する。
実世界のCTR予測ベンチマークの結果は、DSGLによってもたらされた改善を実証している。
論文 参考訳(メタデータ) (2021-09-26T09:23:43Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - Automated Self-Supervised Learning for Graphs [37.14382990139527]
本研究の目的は、複数のプリテキストタスクを効果的に活用する方法を検討することである。
我々は、多くの実世界のグラフ、すなわちホモフィリーの鍵となる原理を、様々な自己教師付きプレテキストタスクを効果的に探索するためのガイダンスとして利用している。
本稿では,自己教師型タスクの組み合わせを自動的に検索するAutoSSLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:09:20Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。