論文の概要: SIRL: Similarity-based Implicit Representation Learning
- arxiv url: http://arxiv.org/abs/2301.00810v1
- Date: Mon, 2 Jan 2023 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 14:36:15.072793
- Title: SIRL: Similarity-based Implicit Representation Learning
- Title(参考訳): SIRL:類似性に基づく暗黙表現学習
- Authors: Andreea Bobu, Yi Liu, Rohin Shah, Daniel S. Brown, Anca D. Dragan
- Abstract要約: ユーザに対して,同じような振る舞いを問うことで,表現をチューニングできることが示される。
これにより、ロボットは、表現に進む必要のあるものと、刺激的なものとをあいまいにすることができる。
- 参考スコア(独自算出の注目度): 44.71701661851492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When robots learn reward functions using high capacity models that take raw
state directly as input, they need to both learn a representation for what
matters in the task -- the task ``features" -- as well as how to combine these
features into a single objective. If they try to do both at once from input
designed to teach the full reward function, it is easy to end up with a
representation that contains spurious correlations in the data, which fails to
generalize to new settings. Instead, our ultimate goal is to enable robots to
identify and isolate the causal features that people actually care about and
use when they represent states and behavior. Our idea is that we can tune into
this representation by asking users what behaviors they consider similar:
behaviors will be similar if the features that matter are similar, even if
low-level behavior is different; conversely, behaviors will be different if
even one of the features that matter differs. This, in turn, is what enables
the robot to disambiguate between what needs to go into the representation
versus what is spurious, as well as what aspects of behavior can be compressed
together versus not. The notion of learning representations based on similarity
has a nice parallel in contrastive learning, a self-supervised representation
learning technique that maps visually similar data points to similar
embeddings, where similarity is defined by a designer through data augmentation
heuristics. By contrast, in order to learn the representations that people use,
so we can learn their preferences and objectives, we use their definition of
similarity. In simulation as well as in a user study, we show that learning
through such similarity queries leads to representations that, while far from
perfect, are indeed more generalizable than self-supervised and task-input
alternatives.
- Abstract(参考訳): ロボットが入力として生の状態を直接取る高容量モデルを使って報酬関数を学習するときは、タスクの「機能」であるタスクの表現と、これらの機能をひとつの目的に組み合わせる方法の両方を学ぶ必要がある。
完全な報酬関数を教えるために設計された入力から、一度に両方をしようとすると、データに散発的な相関関係を含む表現にたどり着くのは簡単で、新しい設定に一般化することができない。
その代わり、私たちの究極のゴールは、人々が実際に関心を持ち、状態や行動を表すときに使用する因果的特徴をロボットが識別し、分離できるようにすることです。
私たちの考えは、ユーザに対して、同じような振る舞いを問うことで、この表現をチューニングできる、ということだ: 重要な特徴が似ていても、たとえ低レベルの振る舞いが異なるとしても、振る舞いは似ている。
これは、ロボットが表現に進む必要のあるものと、刺激的なもの、そして行動のどの側面を一緒に圧縮できるかを曖昧にすることができることを意味している。
類似性に基づく学習表現の概念は、視覚的に類似したデータポイントを類似した埋め込みにマッピングする自己教師付き表現学習技術であり、データ拡張ヒューリスティックを通じて設計者が類似性を定義する。
対照的に、人々が使用する表現を学ぶために、私たちは彼らの好みや目的を学ぶために、類似性の定義を使います。
シミュレーションやユーザスタディにおいて、このような類似性クエリによる学習は、完璧とは程遠いが、自己教師型やタスクインプット型よりもはるかに一般化可能な表現につながることを示す。
関連論文リスト
- Training objective drives the consistency of representational similarity across datasets [19.99817888941361]
プラトン表現仮説(Platonic Representation hypothesis)は、最近の基礎モデルは下流タスクのパフォーマンスの関数として共有表現空間に収束していると主張している。
そこで本研究では,モデル間の表現的類似性が,表現を構成するために使用される刺激の集合によってどのように変化するかを測定するための体系的手法を提案する。
目的関数はデータセット間の表現的類似性の一貫性を決定する上で最も重要な要素であることがわかった。
論文 参考訳(メタデータ) (2024-11-08T13:35:45Z) - Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - A Pattern Language for Machine Learning Tasks [0.0]
我々は客観的関数を学習者の行動に関する制約と見なしている。
動作の中核となるタスクと実装の詳細を分離できる形式的なグラフィカル言語を開発する。
概念実証として、「マニピュレータ」と呼ぶ生成モデルに分類器を変換できる新しいタスクを設計する。
論文 参考訳(メタデータ) (2024-07-02T16:50:27Z) - A Generalized Acquisition Function for Preference-based Reward Learning [12.158619866176487]
優先度に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行したいと望む方法を教えるための一般的なテクニックである。
従来の研究では、報酬関数パラメータに関する情報獲得を最大化するために、嗜好クエリを積極的に合成することで、データ効率が向上することが示されている。
本研究では, 報酬関数を行動同値クラスまで学習するためには, 行動上の同一ランク付け, 選択上の分布, その他の関連する2つの報酬の類似性の定義などの最適化が可能であることを示す。
論文 参考訳(メタデータ) (2024-03-09T20:32:17Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - How do Variational Autoencoders Learn? Insights from Representational
Similarity [2.969705152497174]
本研究では,変分オートエンコーダ(VAE)の内部挙動を表現的類似性手法を用いて検討する。
CKAとProcrustesの類似性を用いて,エンコーダの表現はデコーダよりもずっと前から学習されていることがわかった。
論文 参考訳(メタデータ) (2022-05-17T14:31:57Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Learning to Ignore: Fair and Task Independent Representations [0.7106986689736827]
本研究では,不変表現を学習するための共通フレームワークとして捉えることができることを示す。
表現は、データセットをサブグループに分割する敏感な属性に不変であると同時に、ターゲットを予測できるようにするべきです。
提案手法は,どの学習アルゴリズムでも,同じ特徴表現を持つ場合,サンプルを区別することは不可能である,という単純な観察に基づいている。
論文 参考訳(メタデータ) (2021-01-11T17:33:18Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。