論文の概要: A Primer on SO(3) Action Representations in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.11103v1
- Date: Mon, 13 Oct 2025 07:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.954022
- Title: A Primer on SO(3) Action Representations in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるSO(3)行動表現の素数
- Authors: Martin Schuck, Sherif Samy, Angela P. Schoellig,
- Abstract要約: 表現誘発幾何学が探索と最適化に強く影響を与えることを示す。
その結果,局所的なフレーム内の接ベクトルとして行動を表現することで,アルゴリズム間で最も信頼性の高い結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 6.964881957695288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many robotic control tasks require policies to act on orientations, yet the geometry of SO(3) makes this nontrivial. Because SO(3) admits no global, smooth, minimal parameterization, common representations such as Euler angles, quaternions, rotation matrices, and Lie algebra coordinates introduce distinct constraints and failure modes. While these trade-offs are well studied for supervised learning, their implications for actions in reinforcement learning remain unclear. We systematically evaluate SO(3) action representations across three standard continuous control algorithms, PPO, SAC, and TD3, under dense and sparse rewards. We compare how representations shape exploration, interact with entropy regularization, and affect training stability through empirical studies and analyze the implications of different projections for obtaining valid rotations from Euclidean network outputs. Across a suite of robotics benchmarks, we quantify the practical impact of these choices and distill simple, implementation-ready guidelines for selecting and using rotation actions. Our results highlight that representation-induced geometry strongly influences exploration and optimization and show that representing actions as tangent vectors in the local frame yields the most reliable results across algorithms.
- Abstract(参考訳): 多くのロボット制御タスクは、向きに振る舞うポリシーを必要とするが、SO(3)の幾何学は、これを非自明にしている。
SO(3) は大域的で滑らかで最小限のパラメータ化を許さないので、オイラー角、四元数、回転行列、リー代数座標などの共通表現は、異なる制約と失敗モードを導入する。
これらのトレードオフは教師あり学習によく研究されているが、強化学習における行動に対する影響はいまだ不明である。
我々は,3つの標準連続制御アルゴリズム,PPO,SAC,TD3におけるSO(3)行動表現を,密度と疎度な報酬の下で体系的に評価した。
本研究では, 形状探索, エントロピー正則化との相互作用, および実験によるトレーニング安定性への影響について比較し, ユークリッドネットワーク出力から有効回転を求めるための異なるプロジェクションの影響を解析した。
一連のロボティクスベンチマークにおいて、これらの選択の実践的影響を定量化し、回転動作の選択と使用のためのシンプルで実装可能なガイドラインを蒸留する。
提案結果は,表現誘起幾何が探索と最適化に強く影響を与え,局所的なフレーム内の接ベクトルとして表現することで,アルゴリズム間で最も信頼性の高い結果が得られることを示す。
関連論文リスト
- Reinforcement Learning with Lie Group Orientations for Robotics [4.342261315851938]
配向のリー群構造に固執するネットワークの入力と出力の簡単な修正を提案する。
その結果,既存の学習ライブラリで直接使用可能な,簡単かつ効率的な実装が得られた。
ロボット工学におけるオリエンテーションのためのLie理論を簡潔に紹介し、我々のアプローチを動機づけ、概説する。
論文 参考訳(メタデータ) (2024-09-18T12:50:28Z) - Learning Unorthogonalized Matrices for Rotation Estimation [83.94986875750455]
3次元の回転を推定することは、3次元コンピュータビジョンの一般的な手順である。
回転行列という表現の1つの形式は、その連続性のために人気がある。
非直交擬似擬似回転行列(PRoM)を提案する。
論文 参考訳(メタデータ) (2023-12-01T09:56:29Z) - Triangular Contrastive Learning on Molecular Graphs [2.8331075191137463]
Triangular Contrastive Learning (TriCL)は、三進的コントラスト学習のための普遍的なフレームワークである。
三角面積損失は、埋め込み空間の角幾何学を学習する新しい異方性損失である。
三角面積損失は, 角度によるモダリティの識別により, 直線折り畳み問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2022-05-26T11:34:08Z) - Unsupervised Learning on 3D Point Clouds by Clustering and Contrasting [11.64827192421785]
教師なし表現学習は、人間の介入なしに機能を自動抽出するための有望な方向である。
本稿では、ポイントワイドおよびグローバルな特徴の学習を行うために、textbfConClu という、一般的な教師なしアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-05T12:54:17Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。