論文の概要: Time-Efficient Reward Learning via Visually Assisted Cluster Ranking
- arxiv url: http://arxiv.org/abs/2212.00169v1
- Date: Wed, 30 Nov 2022 23:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 17:24:10.171828
- Title: Time-Efficient Reward Learning via Visually Assisted Cluster Ranking
- Title(参考訳): 視覚的クラスタランク付けによる時間効率逆学習
- Authors: David Zhang, Micah Carroll, Andreea Bobu, Anca Dragan
- Abstract要約: 状態空間を表示する対話型GUIを人間に提供するために,次元の縮小と可視化技術を活用している。
いくつかの単純なMujocoタスクにおいて、このハイレベルなアプローチは約束を守り、その結果のエージェントの性能を大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 19.049557519151122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the most successful paradigms for reward learning uses human feedback
in the form of comparisons. Although these methods hold promise, human
comparison labeling is expensive and time consuming, constituting a major
bottleneck to their broader applicability. Our insight is that we can greatly
improve how effectively human time is used in these approaches by batching
comparisons together, rather than having the human label each comparison
individually. To do so, we leverage data dimensionality-reduction and
visualization techniques to provide the human with a interactive GUI displaying
the state space, in which the user can label subportions of the state space.
Across some simple Mujoco tasks, we show that this high-level approach holds
promise and is able to greatly increase the performance of the resulting
agents, provided the same amount of human labeling time.
- Abstract(参考訳): 報酬学習の最も成功したパラダイムの1つは、比較の形で人間のフィードバックを使用する。
これらの手法は有望であるが、人間の比較ラベル付けは高価で時間がかかるため、幅広い適用可能性において大きなボトルネックとなる。
我々の洞察は、それぞれの比較を個別にラベル付けるのではなく、比較をバッチ化することで、これらのアプローチで人間の時間がどのように効果的に使用されるかを大幅に改善できるということです。
そこで我々は,データ次元推論と可視化技術を利用して,ユーザが状態空間のサブポートをラベル付けできる状態空間を表示する対話型guiを提供する。
いくつかの単純なmujocoタスクをまたいで、このハイレベルなアプローチが約束を守っており、同じ量の人間のラベル付け時間を提供しながら、結果のエージェントのパフォーマンスを大幅に向上できることを示した。
関連論文リスト
- Active Learning of Ordinal Embeddings: A User Study on Football Data [4.856635699699126]
人間は本来、未知の類似性関数を使用してラベル付けされていないデータセットのインスタンス間の距離を計測する。
この研究はディープ・メトリック・ラーニングを使用して、大規模なフットボールの軌跡データセットのアノテーションからユーザ定義の類似性関数を学習する。
論文 参考訳(メタデータ) (2022-07-26T07:55:23Z) - Label-Efficient Self-Supervised Speaker Verification With Information
Maximization and Contrastive Learning [0.0]
生音声から直接表現を学習することによる話者検証のための自己教師型学習について検討する。
我々のアプローチは、最近の情報学習フレームワークと集中的なデータ前処理ステップに基づいています。
論文 参考訳(メタデータ) (2022-07-12T13:01:55Z) - Learn to Cluster Faces via Pairwise Classification [8.42777116250725]
顔クラスタリングは、巨大なラベルのない顔データを活用する上で重要な役割を果たす。
顔クラスタリングタスクをペア関係分類タスクとして定式化し、大規模グラフ上でのメモリ消費学習を回避する。
提案手法は,複数の公開クラスタリングベンチマークの最先端性能を高速に達成する。
論文 参考訳(メタデータ) (2022-05-26T02:50:32Z) - Comparison of Spatio-Temporal Models for Human Motion and Pose
Forecasting in Face-to-Face Interaction Scenarios [47.99589136455976]
本稿では,行動予測のための最新手法の体系的比較を行った。
UDIVA v0.5の最先端性能を実現するのに最も注意を払っているアプローチである。
短期的に訓練された手法で未来を自動回帰予測することで、かなり長期にわたってベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-07T09:59:30Z) - Leveraging Self-Supervision for Cross-Domain Crowd Counting [71.75102529797549]
混雑したシーンで人をカウントするための最先端の方法は、群衆密度を推定するために深いネットワークに依存します。
われわれのネットワークは、通常の画像から逆さまの実際の画像を認識できるように訓練し、その不確実性を予測する能力を組み込む。
このアルゴリズムは、推論時に余分な計算をせずに、最先端のクロスドメイン群をカウントするアルゴリズムを一貫して上回る。
論文 参考訳(メタデータ) (2021-03-30T12:37:55Z) - Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-03-08T06:55:00Z) - Can Semantic Labels Assist Self-Supervised Visual Representation
Learning? [194.1681088693248]
近隣環境におけるコントラスト調整(SCAN)という新しいアルゴリズムを提案する。
一連のダウンストリームタスクにおいて、SCANは従来の完全教師付きおよび自己教師付きメソッドよりも優れたパフォーマンスを達成する。
本研究は, セマンティックラベルが自己指導的手法の補助に有用であることを明らかにする。
論文 参考訳(メタデータ) (2020-11-17T13:25:00Z) - Online Descriptor Enhancement via Self-Labelling Triplets for Visual
Data Association [28.03285334702022]
オブジェクトレベルの視覚データアソシエーションのタスクにおいて,視覚記述子を漸進的に精製する自己教師型手法を提案する。
本手法は,ドメインに依存しないデータで事前学習した画像分類ネットワークを継続的にトレーニングすることにより,オンラインのディープディスクリプタジェネレータを最適化する。
提案手法はトラッキング・バイ・ディテクト・タスクに適用された他の視覚的データ・アソシエーション手法を超越し,観測情報に適応しようとする他の手法と比較して,優れた性能向上を提供することを示す。
論文 参考訳(メタデータ) (2020-11-06T17:42:04Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。