論文の概要: SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization
- arxiv url: http://arxiv.org/abs/2601.22491v1
- Date: Fri, 30 Jan 2026 03:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.182691
- Title: SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization
- Title(参考訳): SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization
- Authors: Jinyang Wu, Changpeng Yang, Yuhao Shen, Fangzhi Xu, Bolin Ni, Chonghua Liao, Yuchen Liu, Hongzhen Wang, Shuai Nie, Shuai Zhang, Haoran Luo, Jiaming Xu,
- Abstract要約: 検証可能な報酬を伴う強化学習は、知的エージェントを訓練するための強力なパラダイムとして登場した。
textbfSweet textbfSpot textbfLearning (textbfSSL) はエージェント最適化のための差別化されたガイダンスを提供する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 29.84259593336842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards has emerged as a powerful paradigm for training intelligent agents. However, existing methods typically employ binary rewards that fail to capture quality differences among trajectories achieving identical outcomes, thereby overlooking potential diversity within the solution space. Inspired by the ``sweet spot'' concept in tennis-the racket's core region that produces optimal hitting effects, we introduce \textbf{S}weet \textbf{S}pot \textbf{L}earning (\textbf{SSL}), a novel framework that provides differentiated guidance for agent optimization. SSL follows a simple yet effective principle: progressively amplified, tiered rewards guide policies toward the sweet-spot region of the solution space. This principle naturally adapts across diverse tasks: visual perception tasks leverage distance-tiered modeling to reward proximity, while complex reasoning tasks reward incremental progress toward promising solutions. We theoretically demonstrate that SSL preserves optimal solution ordering and enhances the gradient signal-to-noise ratio, thereby fostering more directed optimization. Extensive experiments across GUI perception, short/long-term planning, and complex reasoning tasks show consistent improvements over strong baselines on 12 benchmarks, achieving up to 2.5X sample efficiency gains and effective cross-task transferability. Our work establishes SSL as a general principle for training capable and robust agents.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習は、知的エージェントを訓練するための強力なパラダイムとして登場した。
しかし、既存の手法では、通常は二進法の報酬を用いて、同一の結果を得る軌跡間の品質差を捉えることができず、したがって解空間内の潜在的な多様性を見越す。
テニス・ラケットの中核領域における「スウィートスポット」の概念に着想を得て,エージェント最適化のための区別されたガイダンスを提供する新しいフレームワークである \textbf{S}weet \textbf{S}pot \textbf{L}earning (\textbf{SSL})を紹介した。
SSLは、単純だが効果的な原則に従っている: 徐々に増幅され、結び付けられた報酬は、ソリューション空間のスイートスポット領域へのポリシーを導く。
この原理は自然に様々なタスクに適応する:視覚知覚タスクは距離階層モデリングを利用して近接性に報酬を与えるが、複雑な推論タスクは期待できるソリューションへの漸進的な進歩に報いる。
理論的には、SSLは最適解の順序を保ち、勾配信号-雑音比を向上し、より指向的な最適化を促進することを実証する。
GUI知覚、短期/長期計画、複雑な推論タスクにわたる広範な実験は、12ベンチマークの強いベースラインよりも一貫した改善を示し、最大2.5倍のサンプル効率向上と効果的なクロスタスク転送性を実現している。
私たちの研究は、有能で堅牢なエージェントをトレーニングするための一般的な原則としてSSLを確立しています。
関連論文リスト
- A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning [12.179148605060298]
マルチターン強化学習を通じて,大規模言語モデルをエージェントとして訓練する上で,実際にどのような効果があるのか,どのような効果があるのかを検討する。
デザインスペースを環境、報酬、ポリシーという3つの相互関係の柱に分割します。
これらの知見を,3つの柱にまたがる共同設計を指導する学習レシピに抽出する。
論文 参考訳(メタデータ) (2025-10-01T17:23:04Z) - COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。
近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。
本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T07:05:18Z) - Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design [35.544075583073685]
マルチターンRLアルゴリズムとエージェント応用のためのテキストターンレベルの報酬設計に関する最初の体系的研究について述べる。
我々は、多ターン推論強化検索エージェントのケーススタディを行い、検証可能とLCM-as-judgeの2種類のターンレベルの報酬を慎重に設計する。
マルチターン探索タスクの実験により、適切に設計されたターンレベルの報酬を組み込むことで、RLアルゴリズムは軌道レベルの報酬でベースライン法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-05-17T04:09:46Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Decoupled Adversarial Contrastive Learning for Self-supervised
Adversarial Robustness [69.39073806630583]
頑健な表現学習のための対人訓練(AT)と教師なし表現学習のための自己教師型学習(SSL)は2つの活発な研究分野である。
Decoupled Adversarial Contrastive Learning (DeACL) と呼ばれる2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-22T06:30:44Z) - Pareto Self-Supervised Training for Few-Shot Learning [5.6715399725748155]
少数の補助学習は最近少数の分類されたデータを扱うために多くの注意を引き付けました。
タスクのバランスとタスクの衝突を減らすために適切な重みを選択することは難しい。
論文 参考訳(メタデータ) (2021-04-16T01:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。