論文の概要: Learning Transferable Reward for Query Object Localization with Policy
Adaptation
- arxiv url: http://arxiv.org/abs/2202.12403v1
- Date: Thu, 24 Feb 2022 22:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 14:37:05.992494
- Title: Learning Transferable Reward for Query Object Localization with Policy
Adaptation
- Title(参考訳): ポリシー適応型クエリオブジェクトローカライゼーションのためのトランスファタブル・リワードの学習
- Authors: Tingfeng Li, Shaobo Han, Martin Renqiang Min, Dimitris N. Metaxas
- Abstract要約: 我々は、順序距離学習によって表される模範集合を用いて、伝達可能な報酬信号を学習する。
提案手法は,報酬信号が手軽に利用できない新しい環境へのテスト時ポリシー適用を可能にする。
- 参考スコア(独自算出の注目度): 49.994989590997655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a reinforcement learning based approach to \emph{query object
localization}, for which an agent is trained to localize objects of interest
specified by a small exemplary set. We learn a transferable reward signal
formulated using the exemplary set by ordinal metric learning. Our proposed
method enables test-time policy adaptation to new environments where the reward
signals are not readily available, and outperforms fine-tuning approaches that
are limited to annotated images. In addition, the transferable reward allows
repurposing the trained agent from one specific class to another class.
Experiments on corrupted MNIST, CU-Birds, and COCO datasets demonstrate the
effectiveness of our approach.
- Abstract(参考訳): そこで本研究では, エージェントが興味ある対象のローカライズを訓練する, 強化学習に基づく「emph{query object localization}」を提案する。
我々は、順序距離学習による模範集合を用いて、伝達可能な報酬信号を学習する。
提案手法では,報奨信号が得られない新しい環境へのテスト時ポリシー適応が可能であり,注釈付き画像のみに制限された微調整手法を上回っている。
さらに、転送可能な報酬は、訓練されたエージェントを特定のクラスから別のクラスに再設定することを可能にする。
破損したMNIST、CU-Birds、COCOデータセットの実験は、我々のアプローチの有効性を実証している。
関連論文リスト
- Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label [7.400926717561454]
本稿では,弱教師付きオブジェクトローカライゼーションの枠組みについて検討する。
それは、画像と画像レベルのクラスラベルのみを使用して、オブジェクトクラスとその位置を予測できるニューラルネットワークをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2024-04-15T06:02:09Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - Feature Diversity Learning with Sample Dropout for Unsupervised Domain
Adaptive Person Re-identification [0.0]
本稿では,ノイズの多い擬似ラベルを限定することで,より優れた一般化能力を持つ特徴表現を学習する手法を提案する。
我々は,古典的な相互学習アーキテクチャの下で,FDL(Feature Diversity Learning)と呼ばれる新しい手法を提案する。
実験の結果,提案するFDL-SDは,複数のベンチマークデータセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-01-25T10:10:48Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Boosting Weakly Supervised Object Detection via Learning Bounding Box
Adjusters [76.36104006511684]
高価なインスタンスレベルのオブジェクトアノテーションを避けるため、WSOD(Weakly-supervised Object Detection)が最近の話題として登場した。
我々は、よく注釈付けされた補助データセットからバウンディングボックス回帰知識を活用することにより、ローカライズ性能を向上させるための問題設定を擁護する。
提案手法は,WSOD法と知識伝達モデルに対して,同様の問題設定で良好に機能する。
論文 参考訳(メタデータ) (2021-08-03T13:38:20Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Evolutionary Selective Imitation: Interpretable Agents by Imitation
Learning Without a Demonstrator [1.370633147306388]
進化戦略(ES)を介してエージェントを訓練する新しい手法を提案する。
イテレーション毎に、サンプルのサブセットを、これまで発見された最高の軌跡のサンプルに置き換えます。
このセットの評価手順は、教師付き学習を通じて、ランダムに初期化されたニューラルネットワーク(NN)を訓練して、セットを模倣する。
論文 参考訳(メタデータ) (2020-09-17T16:25:31Z) - Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。