論文の概要: On Learning Informative Trajectory Embeddings for Imitation, Classification and Regression
- arxiv url: http://arxiv.org/abs/2501.09327v2
- Date: Fri, 17 Jan 2025 18:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:37.822287
- Title: On Learning Informative Trajectory Embeddings for Imitation, Classification and Regression
- Title(参考訳): 模倣・分類・回帰のためのインフォームな軌道埋め込みの学習について
- Authors: Zichang Ge, Changyu Chen, Arunesh Sinha, Pradeep Varakantham,
- Abstract要約: 実世界のシーケンシャルな意思決定タスクでは、観察された状態-行動軌跡から学ぶことは、模倣、分類、クラスタリングのようなタスクには不可欠である。
本稿では,動的意思決定プロセスにおけるスキルと能力の獲得を目的とした,状態行動軌跡を潜在空間に埋め込む新しい手法を提案する。
- 参考スコア(独自算出の注目度): 19.01804572722833
- License:
- Abstract: In real-world sequential decision making tasks like autonomous driving, robotics, and healthcare, learning from observed state-action trajectories is critical for tasks like imitation, classification, and clustering. For example, self-driving cars must replicate human driving behaviors, while robots and healthcare systems benefit from modeling decision sequences, whether or not they come from expert data. Existing trajectory encoding methods often focus on specific tasks or rely on reward signals, limiting their ability to generalize across domains and tasks. Inspired by the success of embedding models like CLIP and BERT in static domains, we propose a novel method for embedding state-action trajectories into a latent space that captures the skills and competencies in the dynamic underlying decision-making processes. This method operates without the need for reward labels, enabling better generalization across diverse domains and tasks. Our contributions are threefold: (1) We introduce a trajectory embedding approach that captures multiple abilities from state-action data. (2) The learned embeddings exhibit strong representational power across downstream tasks, including imitation, classification, clustering, and regression. (3) The embeddings demonstrate unique properties, such as controlling agent behaviors in IQ-Learn and an additive structure in the latent space. Experimental results confirm that our method outperforms traditional approaches, offering more flexible and powerful trajectory representations for various applications. Our code is available at https://github.com/Erasmo1015/vte.
- Abstract(参考訳): 自律運転、ロボティクス、ヘルスケアといった現実のシーケンシャルな意思決定タスクでは、観察された状態行動軌跡から学ぶことは、模倣、分類、クラスタリングといったタスクには不可欠である。
例えば、自動運転車は人間の運転行動を再現する必要がある。一方、ロボットやヘルスケアシステムは、専門家データから来たかどうかに関わらず、意思決定シーケンスをモデル化する恩恵を受ける。
既存の軌道符号化法は、しばしば特定のタスクにフォーカスするか、報酬信号に依存し、ドメインやタスクをまたいで一般化する能力を制限する。
静的ドメインへのCLIPやBERTなどの埋め込みモデルの成功に触発されて,動的決定プロセスにおけるスキルと能力を捉えるために,状態-動作軌跡を潜在空間に埋め込む新しい手法を提案する。
この方法は報奨ラベルを必要とせずに動作し、様々な領域やタスクをまたいだより良い一般化を可能にする。
1)状態-作用データから複数の能力をキャプチャする軌道埋め込み手法を導入する。
2) 学習した埋め込みは, 模倣, 分類, クラスタリング, 回帰といった下流タスクに強い表現力を示す。
(3) 埋め込みは、IQ-Learnにおけるエージェントの挙動の制御や潜在空間における加法的構造など、ユニークな性質を示す。
実験により,本手法は従来の手法よりも優れ,様々なアプリケーションに対してより柔軟で強力な軌道表現を提供することを確認した。
私たちのコードはhttps://github.com/Erasmo1015/vte.comから入手可能です。
関連論文リスト
- Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。
CNEPは、軌道がどのモードに属するかの監督を必要としない。
本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文 参考訳(メタデータ) (2024-02-13T12:52:02Z) - Unsupervised 3D registration through optimization-guided cyclical
self-training [71.75057371518093]
最先端のディープラーニングベースの登録方法は、3つの異なる学習戦略を採用している。
本稿では,教師なし登録のための自己指導型学習パラダイムを提案する。
腹部, 肺の登録方法の評価を行い, 測定基準に基づく監督を一貫して上回り, 最先端の競争相手よりも優れていた。
論文 参考訳(メタデータ) (2023-06-29T14:54:10Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Unsupervised Self-Driving Attention Prediction via Uncertainty Mining
and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。
結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-17T00:28:33Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文 参考訳(メタデータ) (2021-12-09T17:37:14Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Behaviorally Diverse Traffic Simulation via Reinforcement Learning [16.99423598448411]
本稿では,自律運転エージェントのための簡易なポリシー生成アルゴリズムを提案する。
提案アルゴリズムは,深層強化学習の表現能力と探索能力を活用することで,多様性と運転能力のバランスをとる。
本手法の有効性を,いくつかの挑戦的な交差点シーンにおいて実験的に示す。
論文 参考訳(メタデータ) (2020-11-11T12:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。