論文の概要: Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints
- arxiv url: http://arxiv.org/abs/2510.08549v1
- Date: Thu, 09 Oct 2025 17:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.296136
- Title: Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints
- Title(参考訳): エントロピー規則化活性化: 連続制御, 大言語モデル, エントロピー制約としてのアクティベーションによる画像分類
- Authors: Zilin Kang, Chonghua Liao, Tingqiang Xu, Huazhe Xu,
- Abstract要約: モデル出力に特別に設計されたアクティベーションを適用することで、与えられた閾値以上のサンプリングエントロピーを制約する新しいパラダイムであるERAを提案する。
我々の研究は、出力の活性化をエントロピー制御の強力なツールとして評価し、よりシンプルで堅牢なアルゴリズムを設計するための新たな方向性を開拓する。
- 参考スコア(独自算出の注目度): 32.9206867882979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose ERA, a new paradigm that constrains the sampling entropy above given thresholds by applying specially designed activations to the outputs of models. Our approach demonstrates broad effectiveness across different domains: 1) for large language models(LLMs), boosting the AIME 2025 score for Qwen2.5-Math-7B by 37.4%; 2) for continuous control reinforcement learning agents, improving performance by more than 30% over strong baselines such as SAC on the challenging HumanoidBench; 3) for image classification, enhancing ImageNet top-1 accuracy by 0.69% for ResNet-50. These gains are achieved with a computational overhead of less than 7%. Our work validates output activation as a powerful tool for entropy control, opening a new direction for designing simpler and more robust algorithms.
- Abstract(参考訳): モデル出力に特別に設計されたアクティベーションを適用することで、与えられた閾値以上のサンプリングエントロピーを制約する新しいパラダイムであるERAを提案する。
我々のアプローチは、異なる領域にまたがって幅広い効果を示す。
1 大型言語モデル(LLMs)の場合、Qwen2.5-Math-7B の AIME 2025 スコアを37.4%向上させる。
2) 連続制御強化学習エージェントにおいては,HumanoidBench 上の SAC などの強力なベースラインよりも30%以上性能が向上する。
3) ImageNet Top-1の精度はResNet-50で0.69%向上した。
これらのゲインは、計算オーバーヘッドが7%未満で達成される。
我々の研究は、出力の活性化をエントロピー制御の強力なツールとして評価し、よりシンプルで堅牢なアルゴリズムを設計するための新たな方向性を開拓する。
関連論文リスト
- Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents [40.73340280747757]
大規模言語モデル(LLM)におけるReAct能力は、現代のエージェントシステムの基盤となっている。
マルチステップ実行計画を作成することでエージェントのパフォーマンスを向上させる新しいアプローチであるPre-Actを導入する。
我々のアプローチは会話エージェントと非会話エージェントの両方に適用できる。
論文 参考訳(メタデータ) (2025-05-15T05:17:47Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [133.018487956408]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の数学的推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning [31.796328505473305]
UI-R1は、ルールベースのRLがGUIアクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力をどのように向上するかを探求する最初のフレームワークである。
具体的には、UI-R1が新しいルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)のようなポリシーベースのアルゴリズムによるモデル最適化を可能にする。
効率的なトレーニングのために、モバイルデバイス上で5つの一般的なアクションタイプを含む136の課題タスクからなる、小さくて高品質なデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-27T15:39:30Z) - For SALE: State-Action Representation Learning for Deep Reinforcement
Learning [60.42044715596703]
SALEは、状態と行動の間のニュアンスな相互作用をモデル化する埋め込みを学ぶための新しいアプローチである。
我々は、SALEとRLのチェックポイントをTD3に統合し、TD7アルゴリズムを構成する。
OpenAIのジムのベンチマークタスクでは、TD7は平均276.7%、TD3よりも50.7%、それぞれ300k、500Mのタイムステップでパフォーマンスが向上している。
論文 参考訳(メタデータ) (2023-06-04T19:47:46Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。