論文の概要: On Assessing the Usefulness of Proxy Domains for Developing and
Evaluating Embodied Agents
- arxiv url: http://arxiv.org/abs/2109.14516v1
- Date: Wed, 29 Sep 2021 16:04:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:54:29.012070
- Title: On Assessing the Usefulness of Proxy Domains for Developing and
Evaluating Embodied Agents
- Title(参考訳): プロキシードメインの身体内エージェント開発・評価における有用性の検討
- Authors: Anthony Courchesne (1 and 2), Andrea Censi (3) and Liam Paull (1 and
2) ((1) Mila, (2) Universit\'e de Montr\'eal, (3) ETH Z\"urich)
- Abstract要約: プロキシの値は、解決に使われているタスクに条件づけられている、と私たちは主張します。
我々は、異なるプロキシドメインの有用性を比較するために、新しいプロキシ有用性(PU)メトリクスを確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In many situations it is either impossible or impractical to develop and
evaluate agents entirely on the target domain on which they will be deployed.
This is particularly true in robotics, where doing experiments on hardware is
much more arduous than in simulation. This has become arguably more so in the
case of learning-based agents. To this end, considerable recent effort has been
devoted to developing increasingly realistic and higher fidelity simulators.
However, we lack any principled way to evaluate how good a ``proxy domain'' is,
specifically in terms of how useful it is in helping us achieve our end
objective of building an agent that performs well in the target domain. In this
work, we investigate methods to address this need. We begin by clearly
separating two uses of proxy domains that are often conflated: 1) their ability
to be a faithful predictor of agent performance and 2) their ability to be a
useful tool for learning. In this paper, we attempt to clarify the role of
proxy domains and establish new proxy usefulness (PU) metrics to compare the
usefulness of different proxy domains. We propose the relative predictive PU to
assess the predictive ability of a proxy domain and the learning PU to quantify
the usefulness of a proxy as a tool to generate learning data. Furthermore, we
argue that the value of a proxy is conditioned on the task that it is being
used to help solve. We demonstrate how these new metrics can be used to
optimize parameters of the proxy domain for which obtaining ground truth via
system identification is not trivial.
- Abstract(参考訳): 多くの場合、展開されるターゲットドメイン上でエージェントを開発、評価することは不可能または非現実的です。
これはロボット工学において特に当てはまり、ハードウェアの実験はシミュレーションよりもはるかに困難である。
学習ベースのエージェントの場合、これは間違いなくそうである。
この目的のために、近年はますます現実的で高い忠実度シミュレータの開発に力を入れている。
しかし、特に、ターゲットドメインでうまく機能するエージェントを構築するという私たちの最終目的を達成するのに、それがどれだけ役に立つかという点で、`proxy domain' がいかによいかを評価するための原則的な方法が欠けている。
本研究では,このニーズに対処する手法を検討する。
まず、しばしば混ざり合ったプロキシドメインの2つの使い方を明確に分けます。
1) エージェント性能の忠実な予測者としての能力
2)学習に役立つツールとしての能力。
本稿では、プロキシドメインの役割を明確にし、異なるプロキシドメインの有用性を比較するために、新しいプロキシ有用性(PU)メトリクスを確立することを試みる。
本稿では、プロキシドメインの予測能力を評価するための相対予測PUと、学習データを生成するツールとしてのプロキシの有用性を定量化する学習PUを提案する。
さらに、プロキシの値は、解決に使われているタスクに条件付けされていることを議論する。
システム識別によって真理を得るためのプロキシドメインのパラメータを最適化するために、これらの新しいメトリクスをどのように利用できるかを示す。
関連論文リスト
- Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Dynamic Proxy Domain Generalizes the Crowd Localization by Better Binary Segmentation [65.13362950067744]
群衆のローカライゼーションは、イメージ内の各インスタンスの正確な位置を予測することを目的としている。
現在の高度な手法では、混雑予測に対処する画素単位のバイナリ分類が提案されている。
ドメインシフト下で学習者を一般化するための動的プロキシドメイン(DPD)手法を提案する。
論文 参考訳(メタデータ) (2024-04-22T08:58:57Z) - Cross Domain Policy Transfer with Effect Cycle-Consistency [3.3213136251955815]
深層強化学習法を用いてスクラッチからロボットポリシーを訓練することは、サンプルの非効率性のために違法にコストがかかる可能性がある。
本研究では、未ペアデータを用いてドメイン間の状態空間と行動空間間のマッピング関数を学習するための新しい手法を提案する。
我々のアプローチは3つの移動タスクと2つのロボット操作タスクでテストされている。
論文 参考訳(メタデータ) (2024-03-04T13:20:07Z) - Towards Improved Proxy-based Deep Metric Learning via Data-Augmented
Domain Adaptation [15.254782791542329]
本稿では,プロキシに基づくDeep Metric Learningフレームワークを提案する。
本稿では,データ拡張ドメイン適応法(Data-Augmented Domain Adaptation, DADA)を提案する。
一般的なCUB-200-2011を含むベンチマーク実験により,我々の学習アルゴリズムは既存のプロキシ損失を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-01-01T00:10:58Z) - Non-isotropy Regularization for Proxy-based Deep Metric Learning [78.18860829585182]
本稿では,プロキシに基づくDeep Metric Learningのための非等方正則化(mathbbNIR$)を提案する。
これにより、プロキシの周囲のサンプルの非等方分布を明示的に誘導して最適化することが可能になる。
実験では、競争力と最先端のパフォーマンスを達成しながら、$mathbbNIR$の一貫性のある一般化の利点を強調している。
論文 参考訳(メタデータ) (2022-03-16T11:13:20Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Consequences of Misaligned AI [12.879600368339393]
本稿では,報酬関数の設計をインタラクティブでダイナミックなプロセスとみなすべきである。
セットアップを変更して、完全な状態を参照したり、プリンシパルがプロキシの目的を時間とともに更新したりすることで、より高いユーティリティソリューションを実現する方法を示します。
論文 参考訳(メタデータ) (2021-02-07T19:34:04Z) - What can I do here? A Theory of Affordances in Reinforcement Learning [65.70524105802156]
我々はマルコフ決定過程の学習と計画を行うエージェントのための余裕の理論を開発する。
このケースでは、任意の状況で利用可能なアクションの数を減らすことで、アフォーダンスが二重の役割を担います。
本稿では,よりシンプルで一般化された遷移モデルを推定するために,余裕を学習し,それを利用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-26T16:34:53Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。