論文の概要: SPIKE: An Adaptive Dual Controller Framework for Cost-Efficient Long-Horizon Game Agents
- arxiv url: http://arxiv.org/abs/2605.18636v1
- Date: Mon, 18 May 2026 16:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.101233
- Title: SPIKE: An Adaptive Dual Controller Framework for Cost-Efficient Long-Horizon Game Agents
- Title(参考訳): SPIKE: コスト効率のよいロングホライゾンゲームエージェントのための適応型デュアルコントローラフレームワーク
- Authors: Wencan Jiang, Jiangning Zhang, Jianbiao Mei, Jinzhuo Liu, Yu Yang, Xiaobin Hu, Zhucun Xue, Yong Liu, Dacheng Tao,
- Abstract要約: コスト効率のよい長軸ゲーム制御のための適応型デュアルコントローラフレームワークSPIKEを提案する。
Strategic Controllerは低周波のグローバル計画、障害解析、リカバリを実行し、Reactive Controllerは厳格なトークン予算の下で高速なローカル実行を処理する。
Event Triggerは、視覚的な変化、タスクの進捗、繰り返しアクション、障害信号を監視して、制御がいつ反応性を保つか、あるいは戦略的な推論にエスカレートするかを判断する。
この設計は、複数のリアクティブステップにまたがる戦略的な提案を再利用し、計画が不安定になると局所的なオーバライドをサポートし、余分な議論が役に立つ瞬間に高価な推論を予約する。
- 参考スコア(独自算出の注目度): 74.84742205422825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon multimodal agents in open-world games must stay goal-directed across many low-level interactions under tight token and latency budgets. Existing approaches often trade off costly per-step reasoning against reactive execution that can drift, repeat failures, and recover poorly. Our key idea is to reuse strategic reasoning across locally stable segments and reinvoke it at event boundaries. We present SPIKE, an adaptive dual controller framework for cost-efficient long-horizon game control. Its Strategic Controller performs low-frequency global planning, failure analysis, and recovery, while its Reactive Controller handles fast local execution under a strict token budget. An Event Trigger monitors visual change, task progress, repeated actions, and failure signals to decide when control should stay reactive or escalate to strategic reasoning. Hierarchical Memory separates short-term experience reuse in the State-Action Memory Bank (SA-MB) from structured evidence in the State Action Knowledge Graph (SA-KG), allowing each controller to retrieve the context it needs. This design reuses strategic proposals over multiple reactive steps, supports local override when plans become stale, and reserves expensive reasoning for moments where extra deliberation is useful. On the Lite-100 split of StarDojo, SPIKE improves Lite-100 success rate (SR) by 5.0 percentage points (38.5% relative) over the strongest Lite-100 baseline and Budgeted SR by 9.3 points (75.6% relative) over the strongest budgeted baseline. It also reduces token consumption by 54.9% and latency by 40.8%. Ablations show that event triggering, reactive override, and heterogeneous memory each contribute to success and recovery, supporting selective reasoning rather than reasoning at every step.
- Abstract(参考訳): オープンワールドゲームにおけるロングホライゾンマルチモーダルエージェントは、厳密なトークンと遅延予算の下で多くの低レベルインタラクションを目標に守らなければならない。
既存のアプローチでは、フロートし、失敗を繰り返し、回復が不十分なリアクティブ実行に対して、ステップ毎にコストのかかる推論をトレードオフすることが多い。
私たちのキーとなる考え方は、ローカルの安定したセグメントをまたいだ戦略的推論を再利用し、イベント境界で再起動することです。
コスト効率のよい長軸ゲーム制御のための適応型デュアルコントローラフレームワークSPIKEを提案する。
Strategic Controllerは低周波のグローバル計画、障害解析、リカバリを実行し、Reactive Controllerは厳格なトークン予算の下で高速なローカル実行を処理する。
Event Triggerは、視覚的な変化、タスクの進捗、繰り返しアクション、障害信号を監視して、制御がいつ反応性を保つか、あるいは戦略的な推論にエスカレートするかを判断する。
階層記憶(Hierarchical Memory)は、SA-MB(State-Action Memory Bank)における短期的な体験再利用と、SA-KG(State Action Knowledge Graph)における構造化された証拠を分離し、各コントローラが必要なコンテキストを検索できるようにする。
この設計は、複数のリアクティブステップにまたがる戦略的な提案を再利用し、計画が不安定になると局所的なオーバライドをサポートし、余分な議論が役に立つ瞬間に高価な推論を予約する。
StarDojoのLite-100分割でSPIKEはLite-100成功率(SR)を5.0ポイント(38.5%)、Budgeted SRを9.3ポイント(75.6%)改善した。
またトークン消費を54.9%削減し、レイテンシを40.8%削減する。
アブレーションは、イベントトリガ、リアクティブオーバーライド、ヘテロジニアスメモリが成功と回復に寄与し、すべてのステップで推論するのではなく、選択的な推論をサポートすることを示している。
関連論文リスト
- Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection [15.30405243180468]
長い水平な操作タスクには、永続的なメモリ、適応的なタスクの分解、実行障害からの明示的な回復が必要である。
本フレームワークは,低レベルモータ実行から高レベルセマンティック推論を明示的に分離する。
VLMベースのエージェントモジュールとして実装された高レベルプランナは、構造化されたタスクメモリを維持している。
低レベルエグゼキュータは、VLAベースのビジュモータコントローラとしてインスタンス化され、各サブタスクを実行する。
論文 参考訳(メタデータ) (2026-04-15T14:53:09Z) - LightThinker++: From Reasoning Compression to Memory Management [61.2260619973687]
大きな言語モデル(LLM)は複雑な推論において優れているが、その効率は長い思考トレースの認知的オーバーヘッドの増加によって制限される。
LLMが動的に中間的思考をコンパクトな意味表現に圧縮できる方法であるLightThinkerを提案する。
私たちはフレームワークをLightThinker++に進化させ、Explicit Adaptive Memory Managementを導入しました。
論文 参考訳(メタデータ) (2026-04-04T10:46:09Z) - M$^2$: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval [64.06936170117943]
M$2$は、文脈効率と意思決定を最適化するために設計されたトレーニング不要のメモリ拡張フレームワークである。
本手法では,対話履歴を簡潔な状態更新に圧縮する動的トラジェクトリ要約(Internal Memory)と,オフラインのインサイトバンクから取得した実行可能なガイドラインでエージェントを誘導するInsight Retrieval Augmentation(External Memory)を併用する。
論文 参考訳(メタデータ) (2026-02-28T06:59:51Z) - RLShield: Practical Multi-Agent RL for Financial Cyber Defense with Attack-Surface MDPs and Real-Time Response Orchestration [0.0]
本稿では,金融サイバー防衛のための実用的マルチエージェントRLパイプラインであるRLShieldを提案する。
我々は、エンタープライズアタックサーフェスを、警告、アセットエクスポージャー、サービスヘルスを要約したマルコフ決定プロセス(MDP)としてモデル化し、アクションは実際のレスポンスステップを表す。
実験により、RLShieldは一定応答予算内での破壊を保ちながら、収容時間と余剰露光を減少させることが示された。
論文 参考訳(メタデータ) (2026-02-26T23:29:38Z) - Time Is All It Takes: Spike-Retiming Attacks on Event-Driven Spiking Neural Networks [87.16809558673403]
スパイキングニューラルネットワーク(SNN)は離散スパイクで計算し、時間構造を利用する。
イベント駆動SNNにおけるスパイク数と振幅を保存しながら、既存のスパイクを繰り返すタイミングのみの敵について検討する。
論文 参考訳(メタデータ) (2026-02-03T09:06:53Z) - Connect the Dots: Knowledge Graph-Guided Crawler Attack on Retrieval-Augmented Generation Systems [14.028345839891855]
Retrieval-augmented Generation (RAG) システムは、文書検索と大きな言語モデルを統合する。
RAGは新たなプライバシーリスクを導入している: 敵は慎重に構築されたクエリを発行し、センシティブなコンテンツを徐々に流出させる。
RAGCRAWLERは,情報公開のための知識グラフを構築し,未検索領域を対象としたセマンティック空間でのクエリを計画する。
論文 参考訳(メタデータ) (2026-01-22T05:59:42Z) - Controllable LLM Reasoning via Sparse Autoencoder-Based Steering [66.36947132041657]
大規模推論モデル(LRM)は、人間のような認知的推論戦略を示す。
現在、推論戦略はLEM自身によって自律的に選択されている。
既存の手法は、LRMの隠蔽状態における概念的絡み合いによって、きめ細かい推論戦略を制御するのに苦労している。
論文 参考訳(メタデータ) (2026-01-07T05:26:26Z) - More with Less: An Empirical Study of Turn-Control Strategies for Efficient Coding Agents [4.980051859336524]
コーディングエージェントは、ソフトウェアエンジニアリングタスクを解決するために反復ループ(ターン)で動作します。
ますます強力になりつつあるが、その実践的な展開は、かなりのコストと予測不可能なコストによって妨げられている。
固定ターンの制限、特にベースラインの75パーセントでは、"スイートスポット"として機能することを示す。
次に、固定ターン戦略が固定限界アプローチを一貫して上回り、同等あるいはより良い解率を達成するとともに、必要なタスクのみにリソースをインテリジェントに割り当てることで、コストをさらに12%-24%削減することを示します。
論文 参考訳(メタデータ) (2025-10-19T10:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。