論文の概要: Reward Finetuning for Faster and More Accurate Unsupervised Object
Discovery
- arxiv url: http://arxiv.org/abs/2310.19080v2
- Date: Sun, 5 Nov 2023 18:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 19:49:00.961266
- Title: Reward Finetuning for Faster and More Accurate Unsupervised Object
Discovery
- Title(参考訳): 高速かつ高精度な教師なし物体発見のためのリワードファインタニング
- Authors: Katie Z Luo, Zhenzhen Liu, Xiangyu Chen, Yurong You, Sagie Benaim,
Cheng Perng Phoo, Mark Campbell, Wen Sun, Bharath Hariharan, Kilian Q.
Weinberger
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF)は、機械学習モデルを改善し、それを人間の好みに合わせる。
本稿では,RL法と類似した手法を非教師対象発見に適用することを提案する。
私たちは、我々のアプローチがより正確であるだけでなく、訓練よりも桁違いに高速であることを示した。
- 参考スコア(独自算出の注目度): 64.41455104593304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in machine learning have shown that Reinforcement Learning
from Human Feedback (RLHF) can improve machine learning models and align them
with human preferences. Although very successful for Large Language Models
(LLMs), these advancements have not had a comparable impact in research for
autonomous vehicles -- where alignment with human expectations can be
imperative. In this paper, we propose to adapt similar RL-based methods to
unsupervised object discovery, i.e. learning to detect objects from LiDAR
points without any training labels. Instead of labels, we use simple heuristics
to mimic human feedback. More explicitly, we combine multiple heuristics into a
simple reward function that positively correlates its score with bounding box
accuracy, i.e., boxes containing objects are scored higher than those without.
We start from the detector's own predictions to explore the space and reinforce
boxes with high rewards through gradient updates. Empirically, we demonstrate
that our approach is not only more accurate, but also orders of magnitudes
faster to train compared to prior works on object discovery.
- Abstract(参考訳): 最近の機械学習の進歩により、人間フィードバック(rlhf)からの強化学習は、機械学習モデルを改善し、人間の好みに合わせることができる。
大型言語モデル(llm)では非常に成功したが、これらの進歩は自動運転車の研究に匹敵する影響を与えていない。
本稿では,LLをベースとした類似手法を非教師対象発見,すなわちLiDAR点からの物体検出学習に適用することを提案する。
ラベルの代わりに、単純なヒューリスティックを使って人間のフィードバックを模倣します。
より具体的には、複数のヒューリスティックを単純な報酬関数に組み合わせ、そのスコアを有界箱の精度と正に相関させる。
我々は検出器自身の予測から始まり、勾配の更新を通じて宇宙を探索し、高い報酬で箱を補強する。
経験的に、我々のアプローチはより正確であるだけでなく、オブジェクト発見の以前の作業よりもトレーニングに要する桁数も速いことが示されています。
関連論文リスト
- Learning 3D Perception from Others' Predictions [64.09115694891679]
本研究では,3次元物体検出装置を構築するための新たなシナリオについて検討する。
例えば、自動運転車が新しいエリアに入ると、その領域に最適化された検出器を持つ他の交通参加者から学ぶことができる。
論文 参考訳(メタデータ) (2024-10-03T16:31:28Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Learning Oriented Remote Sensing Object Detection via Naive Geometric
Computing [38.508709334835316]
本稿では,水平提案の回帰,オブジェクト指向提案,物体の回転角を一貫した方法で学習する機構を提案する。
提案するアイデアはシンプルで直感的であり、容易に実装できる。
論文 参考訳(メタデータ) (2021-12-01T13:58:42Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。