Fugu-MT 論文翻訳(概要): Prompting Underestimates LLM Capability for Time Series Classification

論文の概要: Prompting Underestimates LLM Capability for Time Series Classification

arxiv url: http://arxiv.org/abs/2601.03464v1
Date: Tue, 06 Jan 2026 23:31:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-09 02:15:23.088497
Title: Prompting Underestimates LLM Capability for Time Series Classification
Title（参考訳）: 時系列分類におけるLDM能力の過小評価
Authors: Dan Schumacher, Erfan Nourbakhsh, Rocky Slavin, Anthony Rios,
Abstract要約: その結果,大規模言語モデル (LLM) は時系列分類において性能が低いことが示唆された。この結論は、モデルの表現能力よりも、プロンプトベースの生成の限界を反映していることを示す。
参考スコア（独自算出の注目度）: 6.5302581726803615
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Prompt-based evaluations suggest that large language models (LLMs) perform poorly on time series classification, raising doubts about whether they encode meaningful temporal structure. We show that this conclusion reflects limitations of prompt-based generation rather than the model's representational capacity by directly comparing prompt outputs with linear probes over the same internal representations. While zero-shot prompting performs near chance, linear probes improve average F1 from 0.15-0.26 to 0.61-0.67, often matching or exceeding specialized time series models. Layer-wise analyses further show that class-discriminative time series information emerges in early transformer layers and is amplified by visual and multimodal inputs. Together, these results demonstrate a systematic mismatch between what LLMs internally represent and what prompt-based evaluation reveals, leading current evaluations to underestimate their time series understanding.
Abstract（参考訳）: プロンプトに基づく評価では、大規模言語モデル (LLM) は時系列分類では性能が悪く、意味のある時間構造を符号化するかどうかに疑問が生じる。この結論は,同じ内部表現上の線形プローブとプロンプト出力を直接比較することにより,モデル表現能力よりもプロンプトベース生成の限界を反映していることを示す。ゼロショットプロンプトは近い確率で実行されるが、線形プローブは平均F1を0.15-0.26から0.61-0.67に改善し、しばしば特別な時系列モデルと一致するか超える。レイヤワイズ分析により、初期変圧器層にクラス識別時系列情報が出現し、視覚的およびマルチモーダル入力によって増幅されることが示された。これらの結果は,LLMの内部的表現とプロンプトに基づく評価との体系的なミスマッチを示し,時系列理解の過小評価に繋がる。

関連論文リスト

Forecasting Clinical Risk from Textual Time Series: Structuring Narratives for Temporal AI in Healthcare [3.2957337131930484]
本稿では, タイムスタンプによる臨床所見が予測の主入力となるテキスト時系列からの予測問題について紹介する。我々は、細調整されたデコーダベースの大規模言語モデルやエンコーダベースのトランスフォーマーなど、多様なモデル群を評価する。
論文参考訳（メタデータ） (2025-04-14T15:48:56Z)
TimeXL: Explainable Multi-modal Time Series Prediction with LLM-in-the-Loop [79.5773512667468]
TimeXLは、プロトタイプベースの時系列エンコーダと3つの協調する大規模言語モデルを統合するマルチモーダル予測フレームワークである。リフレクションLLMは、予測された値と地上の真実を比較し、テキストの不整合やノイズを識別する。このクローズドループワークフロー予測、批判(参照)、改善が連続的にフレームワークのパフォーマンスと解釈可能性を高めます。
論文参考訳（メタデータ） (2025-03-02T20:40:53Z)
Hierarchical Multimodal LLMs with Semantic Space Alignment for Enhanced Time Series Classification [4.5939667818289385]
HiTimeは階層的なマルチモーダルモデルであり、時間的情報を大きな言語モデルにシームレスに統合する。本研究は, 時間的特徴をLCMに組み込むことにより, 時系列解析の進歩に寄与する可能性が示唆された。
論文参考訳（メタデータ） (2024-10-24T12:32:19Z)
Understanding Why Large Language Models Can Be Ineffective in Time Series Analysis: The Impact of Modality Alignment [16.147350486106777]
大規模言語モデル (LLM) は時系列解析において顕著な性能を示した。しかしながら、LLMは時系列タスク用に設計されていないため、線形回帰のような単純なモデルは、しばしば同等のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2024-10-16T07:47:31Z)
TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling [67.02157180089573]
時系列事前トレーニングは、最近、ラベルのコストを削減し、下流の様々なタスクに利益をもたらす可能性があるとして、広く注目を集めている。本稿では,シームズネットワークに基づく時系列の簡易かつ効果的な自己教師型事前学習フレームワークとしてTimeSiamを提案する。
論文参考訳（メタデータ） (2024-02-04T13:10:51Z)
CARLA: Self-supervised Contrastive Representation Learning for Time Series Anomaly Detection [53.83593870825628]
時系列異常検出(TSAD)の主な課題は、多くの実生活シナリオにおいてラベル付きデータの欠如である。既存の異常検出手法の多くは、教師なしの方法で非ラベル時系列の正常な振る舞いを学習することに焦点を当てている。本稿では,時系列異常検出のためのエンドツーエンドの自己教師型コントラアスティブ表現学習手法を提案する。
論文参考訳（メタデータ） (2023-08-18T04:45:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。