論文の概要: SuS: Strategy-aware Surprise for Intrinsic Exploration
- arxiv url: http://arxiv.org/abs/2601.10349v1
- Date: Thu, 15 Jan 2026 12:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.134895
- Title: SuS: Strategy-aware Surprise for Intrinsic Exploration
- Title(参考訳): SuS: 本質的な探査に戦略対応が期待される
- Authors: Mark Kashirskiy, Ilya Makarov,
- Abstract要約: SuS(Strategy-Aware Surprise)は、事前予測ミスマッチを強化学習における探索のための新しい信号として利用する、本質的なモチベーションフレームワークである。
- 参考スコア(独自算出の注目度): 4.815274507478168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Strategy-aware Surprise (SuS), a novel intrinsic motivation framework that uses pre-post prediction mismatch as a novelty signal for exploration in reinforcement learning. Unlike traditional curiosity-driven methods that rely solely on state prediction error, SuS introduces two complementary components: Strategy Stability (SS) and Strategy Surprise (SuS). SS measures consistency in behavioral strategy across temporal steps, while SuS captures unexpected outcomes relative to the agent's current strategy representation. Our combined reward formulation leverages both signals through learned weighting coefficients. We evaluate SuS on mathematical reasoning tasks using large language models, demonstrating significant improvements in both accuracy and solution diversity. Ablation studies confirm that removing either component results in at least 10% performance degradation, validating the synergistic nature of our approach. SuS achieves 17.4% improvement in Pass@1 and 26.4% improvement in Pass@5 compared to baseline methods, while maintaining higher strategy diversity throughout training.
- Abstract(参考訳): 本稿では, 事前予測ミスマッチを, 強化学習における探索の新たなシグナルとして用いた, 新たな本質的な動機づけフレームワークSuSを提案する。
状態予測エラーのみに依存する従来の好奇心駆動の手法とは異なり、SuSは2つの補完的なコンポーネント、SS(Strategy Stability)とSuS(Strategy Surprise)を導入している。
SSは時間的なステップにわたる行動戦略の一貫性を計測し、SuSはエージェントの現在の戦略表現に対する予期せぬ結果をキャプチャする。
組み合わせ報酬の定式化は、学習した重み付け係数を通して両方の信号を利用する。
大規模言語モデルを用いて数理推論タスクのSuSを評価し,精度と解の多様性の両面で有意な改善を示した。
アブレーション試験により,いずれの成分も除去すると少なくとも10%の性能劣化が生じ,その相乗効果が検証された。
SuSはPass@1の17.4%、Pass@5の26.4%の改善を実現している。
関連論文リスト
- In defense of the two-stage framework for open-set domain adaptive semantic segmentation [114.08201544572546]
Open-Set Domain Adaptation for Semantic Training (OSDA-SS)は、既知のクラスに対するドメイン適応と未知の区別の両方を必要とする。
そこで我々は,OSDA-SSを未知の分離と未知のドメイン適応という2つの逐次ステップで扱う分離適応訓練戦略SATSを提案する。
本手法は,未知のクラスと未知のクラスの両方に対する識別的特徴のバランスの取れた学習を保証し,真に未知のオブジェクトの発見に向けてモデルを操る。
論文 参考訳(メタデータ) (2026-01-04T08:58:03Z) - Enhanced Penalty-based Bidirectional Reinforcement Learning Algorithms [4.197448156583907]
エージェントが初期状態と終端状態の両方から学習できる双方向学習手法を提案する。
提案手法は,Maniのスキルベンチマーク環境に対して検証される。
その結果、この統合戦略は、困難なシナリオにおける政策学習、適応性、全体的なパフォーマンスを向上させることが示唆された。
論文 参考訳(メタデータ) (2025-04-04T04:43:07Z) - GLS-CSC: A Simple but Effective Strategy to Mitigate Chinese STM Models'
Over-Reliance on Superficial Clue [51.713301130055065]
STMモデルにおける表面的手がかりの影響を解析・緩和する。
本稿では,GLS-CSC (Superficial Clue) を含む学習サンプルをトレーニング戦略として提案する。
GLS-CSCは,中国のSTMモデルの堅牢性と一般化性の向上の観点から,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-08T07:10:57Z) - SWAP: Exploiting Second-Ranked Logits for Adversarial Attacks on Time
Series [11.356275885051442]
時系列分類(TSC)は、様々な領域において重要な課題となっている。
ディープニューラルモデルは、TSCタスクにおいて優れたパフォーマンスを示している。
TSCモデルは敵攻撃に対して脆弱である。
TSCモデルの新たな攻撃手法であるSWAPを提案する。
論文 参考訳(メタデータ) (2023-09-06T06:17:35Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Liquid State Machine-Empowered Reflection Tracking in RIS-Aided THz
Communications [31.302962202786027]
本稿では,時系列予測の観点からの深層学習の助けを借りて,RIS反射係数を追跡する枠組みを提案する。
提案したフレームワークは、類似の学習駆動フレームワークに対して2段階の強化を実現する。
論文 参考訳(メタデータ) (2022-08-08T20:19:57Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Strategic Instrumental Variable Regression: Recovering Causal
Relationships From Strategic Responses [16.874125120501944]
観測可能な特徴と予測したい結果の因果関係を回復するために,戦略的対応を効果的に活用できることが示される。
我々の研究は、機械学習モデルに対する戦略的応答と機器変数(IV)回帰との新たな関係を確立する。
論文 参考訳(メタデータ) (2021-07-12T22:12:56Z) - Understanding and Achieving Efficient Robustness with Adversarial
Contrastive Learning [34.97017489872795]
Adversarial Supervised Contrastive Learning (ASCL)アプローチは、堅牢な精度の観点から最先端の防御を2.6%$上回る。
提案された選択戦略を持つASCLは、選択戦略なしでASCLと比較してわずか4,2.8%のプラスと6.3%のマイナスでさらに1.4%$改善を得ることができます。
論文 参考訳(メタデータ) (2021-01-25T11:57:52Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。