論文の概要: Accelerating Multi-modal LLM Gaming Performance via Input Prediction and Mishit Correction
- arxiv url: http://arxiv.org/abs/2512.17250v1
- Date: Fri, 19 Dec 2025 05:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.253404
- Title: Accelerating Multi-modal LLM Gaming Performance via Input Prediction and Mishit Correction
- Title(参考訳): 入力予測とミス修正によるマルチモーダルLDMゲーミング性能の高速化
- Authors: Ziyang Lin, Zixuan Sun, Sanhorn Chen, Xiaoyang Chen, Roy Zhao,
- Abstract要約: リアルタイムのシーケンシャル制御エージェントは、しばしば推論遅延によってボトルネックとなる。
本稿では,TD-MPC2を用いたモデルベース制御に投機的実行の予測理論を適応させるフレームワークを提案する。
提案手法は,500から282までの計画推測数を削減し,エンドツーエンドのステップ遅延を25%改善し,リターン率をわずか7.1%に抑えた強い制御性能を維持した。
- 参考スコア(独自算出の注目度): 4.323124094061299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time sequential control agents are often bottlenecked by inference latency. Even modest per-step planning delays can destabilize control and degrade overall performance. We propose a speculation-and-correction framework that adapts the predict-then-verify philosophy of speculative execution to model-based control with TD-MPC2. At each step, a pretrained world model and latent-space MPC planner generate a short-horizon action queue together with predicted latent rollouts, allowing the agent to execute multiple planned actions without immediate replanning. When a new observation arrives, the system measures the mismatch between the encoded real latent state and the queued predicted latent. For small to moderate mismatch, a lightweight learned corrector applies a residual update to the speculative action, distilled offline from a replanning teacher. For large mismatch, the agent safely falls back to full replanning and clears stale action queues. We study both a gated two-tower MLP corrector and a temporal Transformer corrector to address local errors and systematic drift. Experiments on the DMC Humanoid-Walk task show that our method reduces the number of planning inferences from 500 to 282, improves end-to-end step latency by 25 percent, and maintains strong control performance with only a 7.1 percent return reduction. Ablation results demonstrate that speculative execution without correction is unreliable over longer horizons, highlighting the necessity of mismatch-aware correction for robust latency reduction.
- Abstract(参考訳): リアルタイムのシーケンシャル制御エージェントは、しばしば推論遅延によってボトルネックとなる。
ステップ毎の計画遅延さえも、制御を不安定にし、全体的なパフォーマンスを低下させる可能性がある。
本稿では,TD-MPC2を用いたモデルベース制御に投機的実行の予測・検証哲学を適用する投機・補正フレームワークを提案する。
各ステップで、事前訓練されたワールドモデルとラテントスペースMPCプランナーは、予測されたラテントロールアウトと共に短水平アクションキューを生成し、エージェントは即座に再計画することなく、複数の計画されたアクションを実行することができる。
新しい観測が到着すると、システムは符号化された実際の潜伏状態と待ち行列予測潜伏状態とのミスマッチを測定する。
小から中程度のミスマッチでは、ライトウェイトラーニング・リフレクタが、リプランニング・教師からオフラインで蒸留された投機行動に残留的な更新を施す。
大きなミスマッチの場合、エージェントは安全に完全にリプランし、古いアクションキューをクリアする。
局所誤差と系統的ドリフトに対処するため, ゲート式2-tower MLP補正器と時間変換器補正器の両方について検討した。
DMC Humanoid-Walkタスクの実験では,提案手法は500から282までの計画推測数を削減し,エンドツーエンドのステップ遅延を25%改善し,リターン率をわずか7.1%に抑えた強い制御性能を維持している。
アブレーションの結果, 補正のない投機的実行は長い地平線上では信頼性が低いことが示され, 堅牢な遅延低減のためのミスマッチ対応補正の必要性が浮き彫りになった。
関連論文リスト
- ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - The Hidden Cost of Approximation in Online Mirror Descent [56.99972253009168]
オンラインミラー降下(OMD)は、最適化、機械学習、シーケンシャルな意思決定において多くのアルゴリズムの基盤となる基本的なアルゴリズムパラダイムである。
本研究では,不正確なOMDに関する系統的研究を開始し,正規化器の滑らかさと近似誤差に対する頑健さとの複雑な関係を明らかにする。
論文 参考訳(メタデータ) (2025-11-27T10:09:07Z) - Reducing Latency of LLM Search Agent via Speculation-based Algorithm-System Co-Design [35.95362310928356]
LLMベースの検索エージェントは、高いパフォーマンスを実現するが、深刻なレイテンシーに悩まされる。
我々は憶測のレンズを通してこのボトルネックを再考する。
SPAgentは,検索エージェントにおける投機の役割を拡大し,レイテンシを低減するアルゴリズム・システム協調設計フレームワークである。
論文 参考訳(メタデータ) (2025-11-25T08:15:17Z) - DeeAD: Dynamic Early Exit of Vision-Language Action for Efficient Autonomous Driving [20.235153433297384]
Vision-Language Action (VLA) は、認識、推論、軌道生成を自律運転に統一するが、深いトランスフォーマースタックによる大きな推論遅延に悩まされる。
トレーニング不要で行動誘導型早期退避型フレームワークであるDeeADについて,中間軌道の物理的実現可能性を評価することにより,VLA計画の高速化を図る。
Bench2Driveベンチマークの実験では、計画品質と安全性を保ちながら、28%のトランスフォーマー層幅と29%のレイテンシ削減が示されている。
論文 参考訳(メタデータ) (2025-11-25T07:00:26Z) - Algorithms for dynamic scheduling in manufacturing, towards digital factories Improving Deadline Feasibility and Responsiveness via Temporal Networks [0.0]
従来の決定論的スケジュールは、現実が名目上の計画から逸脱した時に崩壊する。
この論文は、オフラインの制約プログラミングとオンラインの時間的ネットワーク実行を組み合わせることで、最悪の不確実性の下で実現可能なスケジュールを作成する。
論文 参考訳(メタデータ) (2025-10-16T17:28:25Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Adaptive Rescheduling in Prefill-Decode Disaggregated LLM Inference [29.19884207604898]
大規模言語モデル(LLM)推論は基本的なパラダイムとして登場した。
本稿では,時間予測を利用した適応型復号化システムであるARESを提案する。
論文 参考訳(メタデータ) (2025-10-15T15:29:08Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。
本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - AdaShadow: Responsive Test-time Model Adaptation in Non-stationary Mobile Environments [24.606016498430407]
本稿では,非定常移動データ配信と資源動態のための応答性テスト時間適応フレームワークであるAdaShadowを提案する。
AdaShadowは、レイヤの重要度とレイテンシを推定する上での課題と、最適なレイヤ更新計画のスケジューリングに対処する。
その結果,AdaShadowは連続的なシフトの下で最高の精度-遅延バランスを達成することがわかった。
論文 参考訳(メタデータ) (2024-10-10T16:41:39Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。