Fugu-MT 論文翻訳(概要): Simplicial Embeddings Improve Sample Efficiency in Actor-Critic Agents

論文の概要: Simplicial Embeddings Improve Sample Efficiency in Actor-Critic Agents

arxiv url: http://arxiv.org/abs/2510.13704v1
Date: Wed, 15 Oct 2025 16:01:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-16 20:13:28.754227
Title: Simplicial Embeddings Improve Sample Efficiency in Actor-Critic Agents
Title（参考訳）: アクター・クリティカル・エージェントの簡便な埋め込みによる試料効率の向上
Authors: Johan Obando-Ceron, Walter Mayor, Samuel Lavoie, Scott Fujimoto, Aaron Courville, Pablo Samuel Castro,
Abstract要約: 十分に構造化された表現は、深層強化学習(RL)エージェントの一般化とサンプル効率を向上させることができる。本稿では, 単純な構造に埋め込みを制約する軽量な表現層であるsimplicial Embeddingsの使用を提案する。 FastTD3、FastSAC、PPOに適用すると、単純な埋め込みはサンプル効率と最終的な性能を一貫して改善する。
参考スコア（独自算出の注目度）: 22.19386943228187
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent works have proposed accelerating the wall-clock training time of actor-critic methods via the use of large-scale environment parallelization; unfortunately, these can sometimes still require large number of environment interactions to achieve a desired level of performance. Noting that well-structured representations can improve the generalization and sample efficiency of deep reinforcement learning (RL) agents, we propose the use of simplicial embeddings: lightweight representation layers that constrain embeddings to simplicial structures. This geometric inductive bias results in sparse and discrete features that stabilize critic bootstrapping and strengthen policy gradients. When applied to FastTD3, FastSAC, and PPO, simplicial embeddings consistently improve sample efficiency and final performance across a variety of continuous- and discrete-control environments, without any loss in runtime speed.
Abstract（参考訳）: 近年の研究では,大規模環境並列化によるアクター・クリティカルな手法のウォールクロック・トレーニング時間の向上が提案されている。高度に構造化された表現は、深層強化学習(RL)エージェントの一般化とサンプル効率を向上させることができることに留意し、単純埋め込み(simplicial embeddings: simplicial Structures)の使用を提案する。この幾何学的帰納バイアスは、批評家のブートストラップを安定させ、政策勾配を補強するスパースかつ離散的な特徴をもたらす。 FastTD3、FastSAC、PPOに適用すると、単純な埋め込みは、実行速度を損なうことなく、様々な連続および離散制御環境におけるサンプル効率と最終的なパフォーマンスを一貫して改善する。

関連論文リスト

CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文参考訳（メタデータ） (2025-10-01T15:41:27Z)
ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文参考訳（メタデータ） (2025-10-01T09:11:27Z)
TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs [67.55973229034319]
本稿では,マルチモーダルな大規模言語モデル(MLLM)をビデオ時間的グラウンド処理に適応させることの有効性向上を目的とした,新しい強化微調整フレームワークであるTempSamp-R1を紹介する。我々は、TempSamp-R1がGRPOベースのベースラインより優れており、ベンチマークデータセット上で新しい最先端のパフォーマンスを確立していることを示す。
論文参考訳（メタデータ） (2025-09-22T17:30:15Z)
LARGO: Low-Rank Regulated Gradient Projection for Robust Parameter Efficient Fine-Tuning [39.56217775141507]
Low-rAnk Regulated Gradient Projection (LARGO)アルゴリズムは、動的制約を低ランク適応法に統合する。 LARGOは、ドメイン内および配布外のシナリオで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-14T08:19:11Z)
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
TOP-ERL: Transformer-based Off-Policy Episodic Reinforcement Learning [27.93845816476777]
本研究はトランスフォーマーに基づくオフポリシック・エピソード強化学習(TOP-ERL)を紹介する。 TOP-ERLは、ERLフレームワークの非政治的更新を可能にする新しいアルゴリズムである。
論文参考訳（メタデータ） (2024-10-12T13:55:26Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
Back to Basics: Efficient Network Compression via IMP [22.586474627159287]
イテレーティブ・マグニチュード・プルーニング(IMP)は、ネットワーク・プルーニングにおける最も確立されたアプローチの1つである。 IMPは、トレーニングフェーズにスパーシフィケーションを組み込まないことで、最適以下の状態に達するとしばしば主張される。再学習のためのSLRを用いたIMPは、最先端のプルーニング訓練手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2021-11-01T11:23:44Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。