Fugu-MT 論文翻訳(概要): Do VLMs Truly "Read" Candlesticks? A Multi-Scale Benchmark for Visual Stock Price Forecasting

論文の概要: Do VLMs Truly "Read" Candlesticks? A Multi-Scale Benchmark for Visual Stock Price Forecasting

arxiv url: http://arxiv.org/abs/2604.12659v1
Date: Tue, 14 Apr 2026 12:26:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.439965
Title: Do VLMs Truly "Read" Candlesticks? A Multi-Scale Benchmark for Visual Stock Price Forecasting
Title（参考訳）: VLMはキャンドルスティックを真に"読む"か? ビジュアルストック価格予測のためのマルチスケールベンチマーク
Authors: Kaiqi Hu, Linda Xiao, Shiyue Xu, Ziyi Tang, Mingwen Liu,
Abstract要約: 視覚言語モデル(VLM)は、視覚的株価予測にますます適用されているが、既存のベンチマークではロウソクスティックチャートにおける株価の理解が不十分である。マルチスケールのキャンドルスティックチャートデータセットと,VLMがマルチスケールの視覚的市場信号を利用する能力を評価するための標準化された評価フレームワークを構築した。
参考スコア（独自算出の注目度）: 2.2212162466658882
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models(VLMs) are increasingly applied to visual stock price forecasting, yet existing benchmarks inadequately evaluate their understanding of stock price in candlestick charts. First, prior studies fail to isolate VLMs' comprehension of visual inputs genuinely improves predictive performance and whether VLMs truly comprehend candlestick patterns. Further, most existing datasets and evaluation setups are designed around single-period or tabular inputs. However, human analysts strongly rely on multi-scale candlestick charts, where longer-term horizons capture trend direction and shorter-term horizons provide cues for inflection points, making it difficult to systematically assess VLMs' ability to integrate short-term and long-term visual market dynamics. To bridge this gap, we construct a multi-scale candlestick charts dataset and a standardized evaluation framework to assess VLMs' ability to utilize multi-scale visual market signals. Evaluation combines confusion-matrix-based diagnostics with information coefficient(IC) time series metrics and includes XGBoost as a feature-based temporal baseline. Using this dataset, we benchmark representative VLMs and analyze their ability to leverage multi-scale stock price data. Experimental results show that most VLMs perform well only under persistent uptrend or downtrend conditions, while exhibiting weak predictive capability in more common market scenarios. We also identify significant prediction biases and limited sensitivity to explicitly specified forecast horizons in prompts, indicating inherent limitations in precise temporal reasoning.
Abstract（参考訳）: 視覚言語モデル(VLM)は、視覚的株価予測にますます適用されているが、既存のベンチマークではロウソクスティックチャートにおける株価の理解が不十分である。まず、VLMの視覚入力の理解が予測性能を真に向上させるかどうか、また、VLMがキャンドルスティックパターンを本当に理解しているかどうかを事前に研究した。さらに、既存のデータセットや評価設定のほとんどは、単一周期または表の入力を中心に設計されている。しかしながら、人間アナリストは、長期の地平線がトレンドの方向を捉え、短期の地平線がインフレクションポイントの手がかりを提供するマルチスケールのキャンドルスティックチャートに強く依存しているため、VLMが短期および長期の視覚市場ダイナミクスを統合する能力を体系的に評価することは困難である。このギャップを埋めるために、我々はマルチスケールのキャンドルスティックチャートデータセットと、VLMがマルチスケールの視覚的市場信号を利用する能力を評価するための標準化された評価フレームワークを構築した。評価は、混乱行列に基づく診断と情報係数(IC)時系列メトリクスを組み合わせ、特徴ベースの時間ベースラインとしてXGBoostを含む。このデータセットを用いて、代表的VLMをベンチマークし、マルチスケールの株価データを活用する能力を解析する。実験の結果、ほとんどのVLMは、より一般的な市場シナリオにおいて弱い予測能力を示しながら、永続的なアップトレンドまたはダウントレンド条件下でのみ良好に動作することが示された。また,有意な予測バイアスと明示された予測水平線に対する感度の制限も確認し,正確な時間的推論に固有の制約を示す。

関連論文リスト

Vision-aligned Latent Reasoning for Multi-modal Large Language Model [82.26044667101011]
VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。 VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
論文参考訳（メタデータ） (2026-02-04T12:04:02Z)
Look-Ahead-Bench: a Standardized Benchmark of Look-ahead Bias in Point-in-Time LLMs for Finance [0.0]
我々はLook-Ahead-Benchについて紹介する。Look-Ahead-Benchは、LLM(Point-in-Time)大言語モデルにおけるルック-アヘッドバイアスを測定する標準ベンチマークである。我々は、時間的に異なる市場体制におけるパフォーマンス劣化を分析し、パフォーマンス閾値を確立するために、いくつかの定量的ベースラインを取り入れた。その結果, ピチンフモデルとは異なり, アルファ崩壊で測定された標準LDMの頭頂部偏差が顕著であった。
論文参考訳（メタデータ） (2026-01-20T09:23:51Z)
When to Think and When to Look: Uncertainty-Guided Lookback [41.85837765999506]
長い鎖は多くの場合、画像を無視した長い間違った軌跡を生み出します。より深い分析により、画像に明示的に言及する短い振り返り句が、成功した軌跡に強く富んでいることが明らかとなった。本研究では,不確実性信号と適応的なルックバックプロンプトと広帯域探索を組み合わせた学習自由復号法である不確実性ガイド付きルックバックを提案する。
論文参考訳（メタデータ） (2025-11-19T17:01:02Z)
Why Bonds Fail Differently? Explainable Multimodal Learning for Multi-Class Default Prediction [4.838838129678638]
マルチクラス債デフォルト予測のための新しいフレームワークを提案する。 LOTは数値時系列(金融/マクロ経済指標)と非構造化データ(ボンド)を統合する不規則なシーケンスを処理するためにTime-Aware LSTMを使用し、解釈可能性を高めるためにソフトクラスタリングとマルチレベルアテンションを採用する。
論文参考訳（メタデータ） (2025-09-13T03:42:34Z)
VISTA: Vision-Language Inference for Training-Free Stock Time-Series Analysis [0.0]
VISTA(Vision-Language Inference for Stock Time-Series Analysis)は,マルチモーダルストック予測のためのトレーニングフリーフレームワークである。我々は、標準ベースラインに対してVISTAをベンチマークし、ARIMAやテキストのみのLLMベースのプロンプト手法を含む。 VISTAはこれらのベースラインを最大89.83%上回り、株価時系列分析におけるマルチモーダル推論の有効性を示す。
論文参考訳（メタデータ） (2025-05-24T07:20:14Z)
Protecting multimodal large language models against misleading visualizations [94.71976205962527]
この結果から,誤解を招く可視化に対する質問応答(QA)の精度が,ランダムなベースラインのレベルに平均で低下していることが示唆された。本研究では,非ミスリーディングの精度を損なうことなく,誤解を招くビジュアライゼーションにおけるQA性能を改善するための最初の推論時間手法を提案する。テーブルベースのQAと視覚化を再描画する2つの方法が有効であり、最大19.6ポイントの改善が期待できる。
論文参考訳（メタデータ） (2025-02-27T20:22:34Z)
Agent Trading Arena: A Study on Numerical Understanding in LLM-Based Agents [69.58565132975504]
大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示した。 LLMをベースとしたエージェントが競合するマルチエージェント取引を行う仮想ゼロサム株式市場であるエージェントトレーディングアリーナを提示する。
論文参考訳（メタデータ） (2025-02-25T08:41:01Z)
Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
Deep Stock Predictions [58.720142291102135]
本稿では,Long Short Term Memory (LSTM) ニューラルネットワークを用いてポートフォリオ最適化を行うトレーディング戦略の設計について考察する。次に、LSTMのトレーニングに使用する損失関数をカスタマイズし、利益を上げる。カスタマイズされた損失関数を持つLSTMモデルは、ARIMAのような回帰ベースライン上でのトレーニングボットの性能を向上させる。
論文参考訳（メタデータ） (2020-06-08T23:37:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。