論文の概要: What Matters to You? Towards Visual Representation Alignment for Robot
Learning
- arxiv url: http://arxiv.org/abs/2310.07932v2
- Date: Tue, 16 Jan 2024 04:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 01:25:43.760211
- Title: What Matters to You? Towards Visual Representation Alignment for Robot
Learning
- Title(参考訳): あなたはどうしたの?
ロボット学習のための視覚表現アライメントに向けて
- Authors: Ran Tian, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea
Bajcsy
- Abstract要約: 人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
- 参考スコア(独自算出の注目度): 81.30964736676103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When operating in service of people, robots need to optimize rewards aligned
with end-user preferences. Since robots will rely on raw perceptual inputs like
RGB images, their rewards will inevitably use visual representations. Recently
there has been excitement in using representations from pre-trained visual
models, but key to making these work in robotics is fine-tuning, which is
typically done via proxy tasks like dynamics prediction or enforcing temporal
cycle-consistency. However, all these proxy tasks bypass the human's input on
what matters to them, exacerbating spurious correlations and ultimately leading
to robot behaviors that are misaligned with user preferences. In this work, we
propose that robots should leverage human feedback to align their visual
representations with the end-user and disentangle what matters for the task. We
propose Representation-Aligned Preference-based Learning (RAPL), a method for
solving the visual representation alignment problem and visual reward learning
problem through the lens of preference-based learning and optimal transport.
Across experiments in X-MAGICAL and in robotic manipulation, we find that
RAPL's reward consistently generates preferred robot behaviors with high sample
efficiency, and shows strong zero-shot generalization when the visual
representation is learned from a different embodiment than the robot's.
- Abstract(参考訳): 人々のサービスを利用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
ロボットはRGB画像のような生の知覚入力に頼るので、報酬は必然的に視覚表現を使用する。
近年、事前訓練された視覚モデルからの表現を使うことに興奮している。しかし、ロボット工学におけるこれらの作業の鍵となるのは微調整であり、一般的には動的予測や時間的サイクル一貫性の強制といったプロキシタスクを通じて行われる。
しかし、これらすべてのプロキシタスクは、人間にとって重要なものに対する入力をバイパスし、スプリアス相関を悪化させ、最終的にユーザーの好みに合致しないロボットの行動に繋がる。
本研究は,ロボットが視覚表現をエンドユーザーと整合させ,タスクの重要事項を分断するために,人間のフィードバックを活用することを提案する。
本稿では、優先型学習と最適輸送のレンズを用いて、視覚的表現アライメント問題と視覚的報酬学習問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
X-磁気学およびロボット操作の実験において、RAPLの報酬は、高いサンプル効率で、常に好ましいロボット行動を生成し、ロボットとは異なる実施形態から視覚表現が学習された場合に、強いゼロショットの一般化を示す。
関連論文リスト
- Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - HRP: Human Affordances for Robotic Pre-Training [15.92416819748365]
本稿では,手,物,接触の事前学習のためのフレームワークを提案する。
実世界の5つのタスクにおいて、この空き時間事前学習がパフォーマンスを最低15%向上させることを実験的に実証した(3000以上のロボット試験を用いて)。
論文 参考訳(メタデータ) (2024-07-26T17:59:52Z) - Predicting Human Impressions of Robot Performance During Navigation Tasks [8.01980632893357]
本研究では,非言語行動手がかりと機械学習技術を用いて,ロボット行動に対する人々の印象を予測する可能性を検討する。
以上の結果から,表情だけでロボット性能の人的印象について有用な情報が得られることが示唆された。
教師付き学習技術は、ほとんどの場合、人間のロボット性能予測よりも優れていたため、有望であった。
論文 参考訳(メタデータ) (2023-10-17T21:12:32Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Aligning Robot and Human Representations [50.070982136315784]
ロボット工学における現在の表現学習アプローチは、表現アライメントの目的がいかにうまく達成されているかの観点から研究されるべきである。
問題を数学的に定義し、その鍵となるデシダータを同定し、この形式主義の中に現在の方法を置く。
論文 参考訳(メタデータ) (2023-02-03T18:59:55Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning User-Preferred Mappings for Intuitive Robot Control [28.183430654834307]
そこで本研究では,ロボットのクエリから,人間の好みのマッピングや事前認識のマッピングを学習する手法を提案する。
我々は、人間の地図に強い先行性があることを認識して、このアプローチをデータ効率良くする。
シミュレーションおよび実験結果から,入力とロボット動作のマッピングを学習することで,客観的および主観的パフォーマンスが向上することが示唆された。
論文 参考訳(メタデータ) (2020-07-22T18:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。