論文の概要: Simplicial Embeddings Improve Sample Efficiency in Actor-Critic Agents
- arxiv url: http://arxiv.org/abs/2510.13704v1
- Date: Wed, 15 Oct 2025 16:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.754227
- Title: Simplicial Embeddings Improve Sample Efficiency in Actor-Critic Agents
- Title(参考訳): アクター・クリティカル・エージェントの簡便な埋め込みによる試料効率の向上
- Authors: Johan Obando-Ceron, Walter Mayor, Samuel Lavoie, Scott Fujimoto, Aaron Courville, Pablo Samuel Castro,
- Abstract要約: 十分に構造化された表現は、深層強化学習(RL)エージェントの一般化とサンプル効率を向上させることができる。
本稿では, 単純な構造に埋め込みを制約する軽量な表現層であるsimplicial Embeddingsの使用を提案する。
FastTD3、FastSAC、PPOに適用すると、単純な埋め込みはサンプル効率と最終的な性能を一貫して改善する。
- 参考スコア(独自算出の注目度): 22.19386943228187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have proposed accelerating the wall-clock training time of actor-critic methods via the use of large-scale environment parallelization; unfortunately, these can sometimes still require large number of environment interactions to achieve a desired level of performance. Noting that well-structured representations can improve the generalization and sample efficiency of deep reinforcement learning (RL) agents, we propose the use of simplicial embeddings: lightweight representation layers that constrain embeddings to simplicial structures. This geometric inductive bias results in sparse and discrete features that stabilize critic bootstrapping and strengthen policy gradients. When applied to FastTD3, FastSAC, and PPO, simplicial embeddings consistently improve sample efficiency and final performance across a variety of continuous- and discrete-control environments, without any loss in runtime speed.
- Abstract(参考訳): 近年の研究では,大規模環境並列化によるアクター・クリティカルな手法のウォールクロック・トレーニング時間の向上が提案されている。
高度に構造化された表現は、深層強化学習(RL)エージェントの一般化とサンプル効率を向上させることができることに留意し、単純埋め込み(simplicial embeddings: simplicial Structures)の使用を提案する。
この幾何学的帰納バイアスは、批評家のブートストラップを安定させ、政策勾配を補強するスパースかつ離散的な特徴をもたらす。
FastTD3、FastSAC、PPOに適用すると、単純な埋め込みは、実行速度を損なうことなく、様々な連続および離散制御環境におけるサンプル効率と最終的なパフォーマンスを一貫して改善する。
関連論文リスト
- Bidirectional Reward-Guided Diffusion for Real-World Image Super-Resolution [79.35296000454694]
拡散に基づく超解像は、豊富な詳細を合成することができるが、合成ペアデータで訓練されたモデルは、現実世界のLR画像では失敗することが多い。
我々は,超解像を軌道レベルの優先最適化として定式化する報奨誘導拡散フレームワークであるBird-SRを提案する。
実世界のSRベンチマークの実験では、Bird-SRは知覚品質において最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-05T19:21:45Z) - Agile Reinforcement Learning through Separable Neural Architecture [0.8577671031243427]
本研究は, 深層強化学習のための関数近似手法であるSPANを紹介する。
SPANはサンプル効率を30-50%改善し、ベンチマーク全体の成功率をベースラインの1.3-9倍に向上させる。
論文 参考訳(メタデータ) (2026-01-30T17:47:36Z) - Leveraging Second-Order Curvature for Efficient Learned Image Compression: Theory and Empirical Evidence [13.56541419560425]
我々は,2次準ニュートンであるtextSOAP が,多種多種多様にわたるトレーニング効率と最終性能の両方を劇的に向上させることを示す。
2階のトレーニングされたモデルでは、アクティベーションが大幅に少なく、頑丈さが潜んでいる。
論文 参考訳(メタデータ) (2026-01-28T16:56:52Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Staggered Environment Resets Improve Massively Parallel On-Policy Reinforcement Learning [18.760525047404098]
大規模並列GPUシミュレーション環境は強化学習(RL)研究を加速させた。
標準同期リセットは有害な非定常性を導入し、学習信号を揺らし、トレーニングを不安定にする。
タスクホライズ内の様々な点で環境をリセットする,シンプルかつ効果的な手法であるスタッガードリセットを導入する。
論文 参考訳(メタデータ) (2025-11-26T03:20:08Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs [67.55973229034319]
本稿では,マルチモーダルな大規模言語モデル(MLLM)をビデオ時間的グラウンド処理に適応させることの有効性向上を目的とした,新しい強化微調整フレームワークであるTempSamp-R1を紹介する。
我々は、TempSamp-R1がGRPOベースのベースラインより優れており、ベンチマークデータセット上で新しい最先端のパフォーマンスを確立していることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:15Z) - LARGO: Low-Rank Regulated Gradient Projection for Robust Parameter Efficient Fine-Tuning [39.56217775141507]
Low-rAnk Regulated Gradient Projection (LARGO)アルゴリズムは、動的制約を低ランク適応法に統合する。
LARGOは、ドメイン内および配布外のシナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-14T08:19:11Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - TOP-ERL: Transformer-based Off-Policy Episodic Reinforcement Learning [27.93845816476777]
本研究はトランスフォーマーに基づくオフポリシック・エピソード強化学習(TOP-ERL)を紹介する。
TOP-ERLは、ERLフレームワークの非政治的更新を可能にする新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-10-12T13:55:26Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Back to Basics: Efficient Network Compression via IMP [22.586474627159287]
イテレーティブ・マグニチュード・プルーニング(IMP)は、ネットワーク・プルーニングにおける最も確立されたアプローチの1つである。
IMPは、トレーニングフェーズにスパーシフィケーションを組み込まないことで、最適以下の状態に達するとしばしば主張される。
再学習のためのSLRを用いたIMPは、最先端のプルーニング訓練手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-01T11:23:44Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。