論文の概要: RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation
- arxiv url: http://arxiv.org/abs/2308.05318v1
- Date: Thu, 10 Aug 2023 03:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 13:47:36.734987
- Title: RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation
- Title(参考訳): RLSAC: エンドツーエンドロバスト推定のための強化サンプル合意
- Authors: Chang Nie, Guangming Wang, Zhe Liu, Luca Cavalli, Marc Pollefeys,
Hesheng Wang
- Abstract要約: RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
- 参考スコア(独自算出の注目度): 74.47709320443998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust estimation is a crucial and still challenging task, which involves
estimating model parameters in noisy environments. Although conventional
sampling consensus-based algorithms sample several times to achieve robustness,
these algorithms cannot use data features and historical information
effectively. In this paper, we propose RLSAC, a novel Reinforcement Learning
enhanced SAmple Consensus framework for end-to-end robust estimation. RLSAC
employs a graph neural network to utilize both data and memory features to
guide exploring directions for sampling the next minimum set. The feedback of
downstream tasks serves as the reward for unsupervised training. Therefore,
RLSAC can avoid differentiating to learn the features and the feedback of
downstream tasks for end-to-end robust estimation. In addition, RLSAC
integrates a state transition module that encodes both data and memory
features. Our experimental results demonstrate that RLSAC can learn from
features to gradually explore a better hypothesis. Through analysis, it is
apparent that RLSAC can be easily transferred to other sampling consensus-based
robust estimation tasks. To the best of our knowledge, RLSAC is also the first
method that uses reinforcement learning to sample consensus for end-to-end
robust estimation. We release our codes at https://github.com/IRMVLab/RLSAC.
- Abstract(参考訳): ノイズの多い環境でモデルパラメータを推定する作業は、ロバストな見積もりは非常に重要で難しい作業です。
従来のサンプリングコンセンサスに基づくアルゴリズムは、堅牢性を達成するために数回サンプリングされるが、これらのアルゴリズムはデータの特徴や履歴情報を効果的に利用することはできない。
本稿では,エンドツーエンドロバスト推定のための強化学習強化サンプルコンセンサスフレームワークrlsacを提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
下流タスクのフィードバックは、教師なしトレーニングの報酬となる。
したがって、RSACは、エンドツーエンドのロバスト推定のために下流タスクの特徴やフィードバックを学ぶために差別化を避けることができる。
さらにrlsacは、データとメモリの機能の両方をエンコードする状態遷移モジュールを統合する。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
分析により、rlsacを他のサンプリングコンセンサスに基づくロバスト推定タスクに容易に転送できることが判明した。
我々の知る限り、RSACは、強化学習を用いて、エンドツーエンドのロバストな評価のためのコンセンサスをサンプリングする最初の方法でもある。
コードはhttps://github.com/irmvlab/rlsacでリリースします。
関連論文リスト
- Langevin Soft Actor-Critic: Efficient Exploration through Uncertainty-Driven Critic Learning [33.42657871152637]
Langevin Soft Actor Critic (LSAC) は、政策最適化に対する不確実性推定による批判的学習の強化を優先している。
LSACは、連続制御タスクのための主流モデルフリーなRLアルゴリズムの性能より優れているか、あるいは劣っている。
特にLSACは、連続的なアクション空間を持つ連続制御タスクにおけるLCCベースのトンプソンサンプリングの最初の成功例である。
論文 参考訳(メタデータ) (2025-01-29T18:18:00Z) - Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Soft Random Sampling: A Theoretical and Empirical Analysis [59.719035355483875]
ソフトランダムサンプリング(SRS)は、大量のデータを扱う際に、効率的なディープニューラルネットワークに対して単純だが効果的なアプローチである。
それは、各エポックに設定された各データセットから、ランダムに置換された均一な速度を選択する。
実世界の産業規模で重要な競争力を持つ、強力で競争力のある戦略であることが示されている。
論文 参考訳(メタデータ) (2023-11-21T17:03:21Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Deep Reinforcement Learning-based UAV Navigation and Control: A Soft
Actor-Critic with Hindsight Experience Replay Approach [0.9137554315375919]
深部強化学習 (DRL) アルゴリズムのクラスとして, 後視体験リプレイ (HER) を用いたSACHER (Software actor-critic, SAC) を提案する。
HERはSACのサンプル効率を向上するため,SACHERはSACよりも高速かつ高精度に最適な結果が得られることを示す。
無人航空機(UAV)の航法・制御問題にSACHERを適用し,SACHERが最適航法経路を生成する。
論文 参考訳(メタデータ) (2021-06-02T08:30:14Z) - Predictive Information Accelerates Learning in RL [50.52439807008805]
我々は、RL環境力学の予測情報の圧縮表現を学習する補助タスクで、画素からSoft Actor-Critic(SAC)エージェントを訓練する。
PI-SACエージェントは、連続制御環境のDM制御スイートからタスクのベースラインに挑戦するよりも、サンプル効率を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-07-24T08:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。