論文の概要: Look-Ahead-Bench: a Standardized Benchmark of Look-ahead Bias in Point-in-Time LLMs for Finance
- arxiv url: http://arxiv.org/abs/2601.13770v1
- Date: Tue, 20 Jan 2026 09:23:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.248556
- Title: Look-Ahead-Bench: a Standardized Benchmark of Look-ahead Bias in Point-in-Time LLMs for Finance
- Title(参考訳): Look-Ahead-Bench: 金融向けポイントインタイムLLMにおけるルックアヘッドバイアスの標準化ベンチマーク
- Authors: Mostapha Benhenda,
- Abstract要約: 我々はLook-Ahead-Benchについて紹介する。Look-Ahead-Benchは、LLM(Point-in-Time)大言語モデルにおけるルック-アヘッドバイアスを測定する標準ベンチマークである。
我々は、時間的に異なる市場体制におけるパフォーマンス劣化を分析し、パフォーマンス閾値を確立するために、いくつかの定量的ベースラインを取り入れた。
その結果, ピチンフモデルとは異なり, アルファ崩壊で測定された標準LDMの頭頂部偏差が顕著であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Look-Ahead-Bench, a standardized benchmark measuring look-ahead bias in Point-in-Time (PiT) Large Language Models (LLMs) within realistic and practical financial workflows. Unlike most existing approaches that primarily test inner lookahead knowledge via Q\\&A, our benchmark evaluates model behavior in practical scenarios. To distinguish genuine predictive capability from memorization-based performance, we analyze performance decay across temporally distinct market regimes, incorporating several quantitative baselines to establish performance thresholds. We evaluate prominent open-source LLMs -- Llama 3.1 (8B and 70B) and DeepSeek 3.2 -- against a family of Point-in-Time LLMs (Pitinf-Small, Pitinf-Medium, and frontier-level model Pitinf-Large) from PiT-Inference. Results reveal significant lookahead bias in standard LLMs, as measured with alpha decay, unlike Pitinf models, which demonstrate improved generalization and reasoning abilities as they scale in size. This work establishes a foundation for the standardized evaluation of temporal bias in financial LLMs and provides a practical framework for identifying models suitable for real-world deployment. Code is available on GitHub: https://github.com/benstaf/lookaheadbench
- Abstract(参考訳): 我々は,現実的かつ実用的な金融ワークフローにおいて,Look-Ahead-Bench(Look-Ahead-Bench)を導入し,Pop-in-Time(PiT)Large Language Models(LLM)のルック・アヘッドバイアスを測定する。
内面知識をQ\\&Aでテストする既存のアプローチとは異なり、我々のベンチマークは実用シナリオにおけるモデル挙動を評価する。
実際の予測能力と記憶に基づく性能を区別するため、時間的に異なる市場体制における性能劣化を分析し、性能閾値を確立するために数種類の定量的ベースラインを組み込んだ。
我々は、PiT-Inferenceから、ポイントインタイムLLM(Pitinf-Small、Pitinf-Medium、Frontier-level model Pitinf-Large)のファミリーに対して、著名なオープンソースLLM(Llama 3.1 (8B、70B)とDeepSeek 3.2)を評価した。
その結果,α崩壊モデルと異なり,標準LLMの視線偏差が顕著であり,スケールするにつれて一般化や推論能力が向上した。
本研究は、金融LLMにおける時間的バイアスの標準化評価の基礎を確立し、実世界の展開に適したモデルを特定するための実践的な枠組みを提供する。
コードはGitHubで入手できる: https://github.com/benstaf/lookaheadbench
関連論文リスト
- FORESTLLM: Large Language Models Make Random Forest Great on Few-shot Tabular Learning [20.27406245916013]
本稿では,大規模言語モデル(LLM)の意味的推論能力を用いて,決定林の構造的帰納バイアスを統一する枠組みを提案する。
まずLLMがラベル付きデータとラベルなしデータの両方の一貫性に基づいて候補分割を評価するセマンティックスプリッティング基準を導入し、より堅牢で一般化可能な木構造を数発の監視下で実現する。
第2に,LLMが決定経路とその支持例を簡潔で決定論的な予測に蒸留し,雑音の多い経験的推定を意味的インフォームドアウトプットに置き換える,葉ノード安定化のためのワンタイムインコンテキスト推論機構を提案する。
論文 参考訳(メタデータ) (2026-01-16T14:08:51Z) - Large Language Models as Universal Predictors? An Empirical Study on Small Tabular Datasets [0.0]
大規模言語モデル(LLM)は、下流タスクを明示的に微調整することなく、構造化された入力に対して予測タスクを実行することができる。
分類,回帰,クラスタリングタスクのための小規模構造化データセット上でのLCMの実証関数近似能力について検討した。
以上の結果から,LLMは構造化データの汎用的予測エンジンとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-24T15:00:51Z) - Your AI, Not Your View: The Bias of LLMs in Investment Analysis [62.388554963415906]
金融において、Large Language Models (LLMs) は、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違から生じる、頻繁な知識紛争に直面している。
これらの対立は、モデル固有のバイアスが制度的目的と誤認される現実世界の投資サービスにおいて特に問題となる。
本研究では,このような紛争シナリオにおける創発的行動を調べるための実験的枠組みを提案し,投資分析におけるバイアスの定量的分析を行う。
論文 参考訳(メタデータ) (2025-07-28T16:09:38Z) - BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs [7.9458352414205295]
大規模な言語モデルは一般的なタスクでは優れていますが、ロジック重大で精度の高い、財務、法律、医療といった重要な領域での信頼性の評価は依然として難しいままです。
BizFinBenchは、実世界の金融アプリケーションにおけるLSMの評価に特化して設計された最初のベンチマークである。
BizFinBenchは中国語で6,781の注釈付きクエリで構成されており、数値計算、推論、情報抽出、予測認識、知識に基づく質問応答の5つの次元にまたがっている。
論文 参考訳(メタデータ) (2025-05-26T03:23:02Z) - Representation Learning of Limit Order Book: A Comprehensive Study and Benchmarking [3.94375691568608]
限界秩序書(LOB)は市場ダイナミクスの詳細なビューを提供する。
既存のアプローチはしばしば、エンド・ツー・エンドの方法で特定の下流タスクによる表現学習を密に結合する。
我々は、実際の中国のAシェア市場データを標準化したベンチマークであるLOBenchを紹介し、キュレートされたデータセット、統一された前処理、一貫した評価指標、強力なベースラインを提供する。
論文 参考訳(メタデータ) (2025-05-04T15:00:00Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。