論文の概要: Time Aggregation Features for XGBoost Models
- arxiv url: http://arxiv.org/abs/2601.10019v1
- Date: Thu, 15 Jan 2026 03:02:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.965386
- Title: Time Aggregation Features for XGBoost Models
- Title(参考訳): XGBoostモデルにおける時間アグリゲーション特性
- Authors: Mykola Pinchuk,
- Abstract要約: 本稿では,クリックスルー率予測におけるXGBoostモデルの時間集約機能について検討する。
設定はAvazuクリックスルーレート予測データセットで、厳格なアウトオブタイムスプリットと no-lookahead機能制約がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies time aggregation features for XGBoost models in click-through rate prediction. The setting is the Avazu click-through rate prediction dataset with strict out-of-time splits and a no-lookahead feature constraint. Features for hour H use only impressions from hours strictly before H. This paper compares a strong time-aware target encoding baseline to models augmented with entity history time aggregation under several window designs. Across two rolling-tail folds on a deterministic ten percent sample, a trailing window specification improves ROC AUC by about 0.0066 to 0.0082 and PR AUC by about 0.0084 to 0.0094 relative to target encoding alone. Within the time aggregation design grid, event count windows provide the only consistent improvement over trailing windows, and the gain is small. Gap windows and bucketized windows underperform simple trailing windows in this dataset and protocol. These results support a practical default of trailing windows, with an optional event count window when marginal ROC AUC gains matter.
- Abstract(参考訳): 本稿では,クリックスルー率予測におけるXGBoostモデルの時間アグリゲーション特性について検討する。
設定はAvazuクリックスルーレート予測データセットで、厳格なアウトオブタイムスプリットと no-lookahead機能制約がある。
本稿では,複数のウィンドウ設計の下でエンティティ履歴時間アグリゲーションを付加したモデルと比較する。
決定論的10%のサンプルで2つのローリングテールを折り畳み、後続のウィンドウ仕様ではROC AUCを0.0066から0.0082に改善し、PR AUCを0.0084から0.0094に改善した。
タイムアグリゲーション設計グリッド内では、イベントカウントウィンドウだけが後続ウィンドウよりも一貫した改善を提供し、ゲインは小さい。
ギャップウィンドウとバケット化されたウィンドウは、このデータセットとプロトコルで単純なトレースウィンドウを過小評価します。
これらの結果は事実上の追従ウィンドウをサポートし、ROC AUCが重要となる場合にイベントカウントウィンドウをオプションで設定する。
関連論文リスト
- Quantifying Memory Use in Reinforcement Learning with Temporal Range [51.98491034847041]
時間的範囲(Temporal Range)は、時間的影響プロファイルとして、時間的ウィンドウから入力シーケンスへの複数のベクトル出力の1次感度を扱うモデルに依存しない計量である。
また、タスクレベルメモリのプロキシ読み出しとして、タスク上で訓練されたコンパクトなLong Expressive Memory(LEM)ポリシーについて、テンポラルレンジを報告する。
論文 参考訳(メタデータ) (2025-12-05T22:58:09Z) - Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。
Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文 参考訳(メタデータ) (2025-03-03T18:16:32Z) - SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention [53.4441894198495]
大きな言語モデル(LLM)は、非常に長いコンテキストウィンドウをサポートするようになった。
バニラの注意の二次的な複雑さは、TTFT(Time-to-First-Token)レイテンシを著しく長くする。
適応型構造とほぼロスレスなスパースアテンションであるSampleAttentionを提案する。
論文 参考訳(メタデータ) (2024-06-17T11:05:15Z) - WindowMixer: Intra-Window and Inter-Window Modeling for Time Series Forecasting [15.578933029560309]
時系列予測は、経済予測、天気予報、交通流分析、公衆衛生監視といった分野において重要である。
従来の手法はポイントツーポイントの関係をモデル化し、複雑な時間パターンをキャプチャする能力を制限する。
全MLPフレームワーク上に構築された WindowMixer モデルを紹介する。
論文 参考訳(メタデータ) (2024-06-14T08:09:39Z) - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - Efficient Observation Time Window Segmentation for Administrative Data
Machine Learning [1.8130068086063336]
機械学習モデルは、タイムスタンプ管理データにおける時間的傾向から学ぶことができると恩恵を受ける。
モデルのトレーニング時間とパフォーマンスは、各機能を異なる時間解像度で表現することで改善できる。
本論文は, ビンニング(TAIB)技術を検討するために, 計算効率のよい時系列解析手法を提案する。
論文 参考訳(メタデータ) (2024-01-29T20:18:51Z) - ScatterFormer: Efficient Voxel Transformer with Scattered Linear Attention [13.36619701679949]
ウィンドウベースのトランスフォーマーは、安価な注意計算でコンテキスト認識表現をキャプチャすることで、大規模クラウド理解において優れている。
既存のメソッドは、ウィンドウ内のボクセルを広範囲のソートとパディング操作を通じて固定長のシーケンスにグループ化する。
ScatterFormerは、異なるウィンドウにまたがるvoxelに直接、単一のシーケンスとして注意を向ける最初の方法です。
論文 参考訳(メタデータ) (2024-01-01T02:29:59Z) - Merlion: A Machine Learning Library for Time Series [73.46386700728577]
Merlionは時系列のためのオープンソースの機械学習ライブラリである。
モデルの統一インターフェースと、異常検出と予測のためのデータセットを備えている。
Merlionはまた、本番環境でのモデルのライブデプロイメントと再トレーニングをシミュレートするユニークな評価フレームワークも提供する。
論文 参考訳(メタデータ) (2021-09-20T02:03:43Z) - Overcoming Statistical Shortcuts for Open-ended Visual Counting [54.858754825838865]
出力ラベルに関係なく、カウントする適切なメカニズムを学習するモデルを開発することを目的としている。
まず,統計的ショートカットに過度に依存するモデルを罰するModifying Count Distributionプロトコルを提案する。
第2に、視覚分析と自然言語質問に基づく数え上げを専門とする空間カウントネットワーク(SCN)を導入する。
論文 参考訳(メタデータ) (2020-06-17T18:02:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。