Fugu-MT 論文翻訳(概要): Tracking Object Positions in Reinforcement Learning: A Metric for Keypoint Detection (extended version)

論文の概要: Tracking Object Positions in Reinforcement Learning: A Metric for Keypoint Detection (extended version)

arxiv url: http://arxiv.org/abs/2312.00592v3
Date: Tue, 2 Jul 2024 09:09:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 12:18:10.229936
Title: Tracking Object Positions in Reinforcement Learning: A Metric for Keypoint Detection (extended version)
Title（参考訳）: 強化学習における物体位置の追跡:キーポイント検出のためのメトリクス(拡張版)
Authors: Emma Cramer, Jonas Reiher, Sebastian Trimpe,
Abstract要約: ロボット制御のための強化学習(RL)は通常、環境状態の詳細な表現を必要とする。空間オートエンコーダ(SAE)のようなキーポイント検出器は、高次元画像データから低次元表現を抽出する一般的な手法である。
参考スコア（独自算出の注目度）: 5.467140383171385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) for robot control typically requires a detailed representation of the environment state, including information about task-relevant objects not directly measurable. Keypoint detectors, such as spatial autoencoders (SAEs), are a common approach to extracting a low-dimensional representation from high-dimensional image data. SAEs aim at spatial features such as object positions, which are often useful representations in robotic RL. However, whether an SAE is actually able to track objects in the scene and thus yields a spatial state representation well suited for RL tasks has rarely been examined due to a lack of established metrics. In this paper, we propose to assess the performance of an SAE instance by measuring how well keypoints track ground truth objects in images. We present a computationally lightweight metric and use it to evaluate common baseline SAE architectures on image data from a simulated robot task. We find that common SAEs differ substantially in their spatial extraction capability. Furthermore, we validate that SAEs that perform well in our metric achieve superior performance when used in downstream RL. Thus, our metric is an effective and lightweight indicator of RL performance before executing expensive RL training. Building on these insights, we identify three key modifications of SAE architectures to improve tracking performance.
Abstract（参考訳）: ロボット制御のための強化学習(RL)は通常、直接測定できないタスク関連オブジェクトに関する情報を含む環境状態の詳細な表現を必要とする。空間オートエンコーダ(SAE)のようなキーポイント検出器は、高次元画像データから低次元表現を抽出する一般的な手法である。 SAEは物体の位置などの空間的特徴を目標としており、ロボットRLにおいてしばしば有用な表現である。しかし、SAEが実際にシーン内のオブジェクトを追跡でき、したがってRLタスクに適した空間状態表現が得られるかどうかは、確立されたメトリクスが欠如しているため、ほとんど調査されていない。本稿では,画像中の真理物体をキーポイントがどれだけよく追跡できるかを計測することにより,SAEインスタンスの性能を評価することを提案する。シミュレーションされたロボットタスクの画像データに基づいて,計算的に軽量なメトリクスを提示し,それを共通ベースラインSAEアーキテクチャの評価に用いる。その結果,SAEは空間抽出能力に大きく違いがあることが判明した。さらに, 下流RLで使用する場合, 測定値が良好に動作するSAEが優れた性能を発揮することを検証した。したがって,我々の測定基準は高価なRLトレーニングを行う前にRL性能の有効かつ軽量な指標となる。これらの知見に基づいて、トラッキング性能を改善するために、SAEアーキテクチャの3つの重要な変更点を特定する。

関連論文リスト

SARL: Spatially-Aware Self-Supervised Representation Learning for Visuo-Tactile Perception [6.975054201075641]
接触に富んだロボット操作は、局所幾何学を符号化する表現を必要とする。現代のビジュオ触覚センサーは、両方のモダリティを単一の融合画像でキャプチャする。ほとんどの自己教師付き学習フレームワークは、機能マップをグローバルベクターに圧縮する。
論文参考訳（メタデータ） (2025-12-01T17:26:40Z)
APR-Transformer: Initial Pose Estimation for Localization in Complex Environments through Absolute Pose Regression [3.2584852202495806]
本稿では,最先端の手法に触発されたモデルアーキテクチャであるAPR-Transformerを紹介する。提案手法は,確立したベンチマークデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-14T13:06:42Z)
From Text to Space: Mapping Abstract Spatial Models in LLMs during a Grid-World Navigation Task [0.0]
グリッドワールドナビゲーションタスクにおける大規模言語モデル(LLM)の性能と内部アクティベーションに及ぼすテキストベース空間表現の影響について検討する。実験の結果, 空間のカルデシアン表現は, モデルサイズに比例して高い成功率と経路効率が得られることがわかった。この研究は、LLMが空間情報をどのように処理するかの理解を深め、より解釈可能で堅牢なエージェントAIシステムの開発に有用な洞察を提供する。
論文参考訳（メタデータ） (2025-02-23T19:09:01Z)
DistFormer: Enhancing Local and Global Features for Monocular Per-Object Distance Estimation [35.6022448037063]
物体ごとの距離推定は、自律運転、監視、ロボット工学などの安全上重要な応用において重要である。既存のアプローチは、ローカル情報(すなわち、境界ボックスの割合)とグローバル情報という2つの尺度に依存している。私たちの仕事は、地域とグローバルの両方の手段を強化することを目的としています。
論文参考訳（メタデータ） (2024-01-06T10:56:36Z)
Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。 Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-10-23T16:14:05Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文参考訳（メタデータ） (2022-04-18T23:09:23Z)
Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文参考訳（メタデータ） (2022-03-15T17:59:01Z)
Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文参考訳（メタデータ） (2020-10-28T19:27:26Z)
Learning Invariant Representations for Reinforcement Learning without Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文参考訳（メタデータ） (2020-06-18T17:59:35Z)
Deflating Dataset Bias Using Synthetic Data Augmentation [8.509201763744246]
自律走行車(AV)の視覚タスクの最先端の手法は、教師あり学習に依存している。本研究の目的は,視覚タスクにおける実際のデータセットのギャップを埋めるために,ターゲットとなる合成データ拡張の利用を検討することである。 AVに実用的な3つの異なるコンピュータビジョンタスクに関する実証研究は、トレーニングミックスに合成データを持つことは、クロスデータセットの一般化性能を著しく向上させることを一貫して示している。
論文参考訳（メタデータ） (2020-04-28T21:56:10Z)
Acceleration of Actor-Critic Deep Reinforcement Learning for Visual Grasping in Clutter by State Representation Learning Based on Disentanglement of a Raw Input Image [4.970364068620608]
アクター・クリティック・ディープ・強化学習(RL)法は、多種多様な物体をつかむ際には、通常非常に低性能である。状態表現学習 (SRL) を用いて, RL において重要な情報をまずエンコードする。その結果,原画像の歪みに基づく前処理が,コンパクトな表現を効果的に捉える鍵であることが判明した。
論文参考訳（メタデータ） (2020-02-27T03:58:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。