論文の概要: Kinematic Tokenization: Optimization-Based Continuous-Time Tokens for Learnable Decision Policies in Noisy Time Series
- arxiv url: http://arxiv.org/abs/2601.09949v2
- Date: Sun, 18 Jan 2026 15:10:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 14:05:45.106408
- Title: Kinematic Tokenization: Optimization-Based Continuous-Time Tokens for Learnable Decision Policies in Noisy Time Series
- Title(参考訳): Kinematic Tokenization: ノイズ時系列における学習可能意思決定のための最適化に基づく連続時間トークン
- Authors: Griffin Kearney,
- Abstract要約: トランスフォーマーは離散トークン用に設計されているが、多くの実世界の信号はノイズサンプリングによって観測される連続的なプロセスである。
最適化に基づく連続時間表現であるKinematic Tokenizationを導入する。
本研究では,明示的な連続時間トークンにより,雑音を伴う時系列における選択的決定ポリシーの学習性と校正性を向上できることを示す。
- 参考スコア(独自算出の注目度): 0.2538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are designed for discrete tokens, yet many real-world signals are continuous processes observed through noisy sampling. Discrete tokenizations (raw values, patches, finite differences) can be brittle in low signal-to-noise regimes, especially when downstream objectives impose asymmetric penalties that rationally encourage abstention. We introduce Kinematic Tokenization, an optimization-based continuous-time representation that reconstructs an explicit spline from noisy measurements and tokenizes local spline coefficients (position, velocity, acceleration, jerk). This is applied to financial time series data in the form of asset prices in conjunction with trading volume profiles. Across a multi-asset daily-equity testbed, we use a risk-averse asymmetric classification objective as a stress test for learnability. Under this objective, several discrete baselines collapse to an absorbing cash policy (the Liquidation Equilibrium), whereas the continuous spline tokens sustain calibrated, non-trivial action distributions and stable policies. These results suggest that explicit continuous-time tokens can improve the learnability and calibration of selective decision policies in noisy time series under abstention-inducing losses.
- Abstract(参考訳): トランスフォーマーは離散トークン用に設計されているが、多くの実世界の信号はノイズサンプリングによって観測される連続的なプロセスである。
離散トークン化(生値、パッチ、有限差分)は、低信号対雑音のシステマティクス、特に下流の目的が棄権を合理的に奨励する非対称な罰を課す場合、脆くすることができる。
雑音測定から明示的なスプラインを再構成し,局所スプライン係数(位置,速度,加速度,ジャーク)をトークン化する最適化に基づく連続時間表現であるKinematic Tokenizationを導入する。
これは取引量プロファイルとともに資産価格の形での金融時系列データに適用される。
マルチアセスメント・デイリー・エクイティ・テストベッドにおいて,リスク・アバースな非対称な分類対象を学習性に対するストレステストとして利用する。
この目的の下では、いくつかの離散ベースラインが吸収される現金政策(清算平衡)に崩壊する一方、連続スプライントークンは校正された非自明な行動分布と安定した政策を維持している。
以上の結果から,明示的な連続時間トークンは,雑音を伴う時系列における選択的決定ポリシーの学習性と校正性を向上させることが示唆された。
関連論文リスト
- GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Accuracy of Discretely Sampled Stochastic Policies in Continuous-time Reinforcement Learning [3.973277434105709]
我々は、個別の時点におけるポリシーからアクションをサンプリングするポリシー実行フレームワークを厳格に分析し、それらを断片的に一定の制御として実装する。
サンプリングメッシュのサイズがゼロになる傾向にあるため、制御された状態過程は、ポリシーに従って係数で動的に弱く収束する。
これらの結果に基づいて、離散時間観測に基づいて、様々な政策勾配推定器のバイアスとばらつきを分析した。
論文 参考訳(メタデータ) (2025-03-13T02:35:23Z) - Error-quantified Conformal Inference for Time Series [55.11926160774831]
時系列予測の不確かさの定量化は、時系列データの時間的依存と分布シフトのために困難である。
量子化損失関数をスムースにすることで,iError-quantified Conformal Inference (ECI)を提案する。
ECIは有効な誤発見制御と、他のベースラインよりも厳密な予測セットを出力することができる。
論文 参考訳(メタデータ) (2025-02-02T15:02:36Z) - An Idiosyncrasy of Time-discretization in Reinforcement Learning [7.085780872622857]
離散化の選択が強化学習アルゴリズムに与える影響について検討する。
我々は離散時間アルゴリズムを離散化された連続時間環境に適用することで、慣用性を認めている。
論文 参考訳(メタデータ) (2024-06-21T08:03:25Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Learning Noise Transition Matrix from Only Noisy Labels via Total
Variation Regularization [88.91872713134342]
本稿では,雑音遷移行列を推定し,同時に分類器を学習する理論的基礎付け手法を提案する。
提案手法の有効性を,ベンチマークおよび実世界のデータセットを用いた実験により示す。
論文 参考訳(メタデータ) (2021-02-04T05:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。