論文の概要: VTBench: A Multimodal Framework for Time-Series Classification with Chart-Based Representations
- arxiv url: http://arxiv.org/abs/2604.27259v1
- Date: Wed, 29 Apr 2026 23:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.836535
- Title: VTBench: A Multimodal Framework for Time-Series Classification with Chart-Based Representations
- Title(参考訳): VTBench:チャートベース表現を用いた時系列分類のためのマルチモーダルフレームワーク
- Authors: Madhumitha Venkatesan, Xuyang Chen, Dongyu Liu,
- Abstract要約: VTBenchは、生の配列とチャートに基づく視覚化のマルチモーダル融合を通じて再検討するフレームワークである。
マルチチャート・ビジュアル・数値融合,マルチチャート・ビジュアル・フュージョン,および生入力によるマルチモーダル・フュージョンを含む,複数の融合戦略をサポートするモジュールアーキテクチャを開発した。
- 参考スコア(独自算出の注目度): 11.42837813008733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time-series classification (TSC) has advanced significantly with deep learning, yet most models rely solely on raw numerical inputs, overlooking alternative representations. While texture-based encodings such as Gramian Angular Fields (GAF) and Recurrence Plots (RP) convert time series into 2D images, they often require heavy preprocessing and yield less intuitive representations. In contrast, chart-based visualizations offer more interpretable alternatives and show promise in specific domains; however, their effectiveness remains underexplored, with limited systematic evaluation across chart types, visual encoding choices, and datasets. In this work, we introduce VTBench, a systematic and extensible framework that re-examines TSC through multimodal fusion of raw sequences and chart-based visualizations. VTBench generates lightweight, human-interpretable plots -- line, area, bar, and scatter, providing complementary views of the same signal. We develop a modular architecture supporting multiple fusion strategies, including single-chart visual-numerical fusion, multi-chart visual fusion, and full multimodal fusion with raw inputs. Through experiments across 31 UCR datasets, we show that: (1) chart-only models are competitive in selected settings, particularly on smaller datasets; (2) combining multiple chart types can improve accuracy by capturing complementary visual cues; and (3) multimodal models improve or maintain performance when visual features provide non-redundant information, but may degrade accuracy when they introduce redundancy. We further distill practical guidelines for selecting chart types, fusion strategies, and configurations. VTBench establishes a unified foundation for interpretable and effective multimodal time-series classification.
- Abstract(参考訳): 時系列分類(TSC)はディープラーニングで大幅に進歩しているが、ほとんどのモデルは、代替表現を見越して生の数値入力にのみ依存している。
Gramian Angular Fields (GAF) や Recurrence Plots (RP) のようなテクスチャベースのエンコーディングは時系列を2D画像に変換するが、重い前処理を必要とすることが多く、直感的な表現は少ない。
対照的に、チャートベースの視覚化は、より解釈可能な代替手段を提供し、特定のドメインで約束を示す。
本稿では, 生の配列とチャートに基づく視覚化のマルチモーダル融合により, TSCを再検討する, 体系的で拡張可能なフレームワークであるVTBenchを紹介する。
VTBenchは、ライン、エリア、バー、散乱といった軽量で人間に解釈可能なプロットを生成し、同じ信号の補完的なビューを提供する。
マルチチャート・ビジュアル・数値融合,マルチチャート・ビジュアル・フュージョン,および生入力によるマルチモーダル・フュージョンを含む,複数の融合戦略をサポートするモジュールアーキテクチャを開発した。
実験では,(1) グラフのみのモデルが選択された設定,特により小さなデータセットで競合する,(2) 複数のチャートタイプを組み合わせることで,補完的な視覚的手がかりを捉えて精度を向上させる,(3) 視覚的特徴が非冗長な情報を提供する場合のマルチモーダルモデルの性能向上や維持,といった結果を得た。
さらに、チャートタイプ、融合戦略、構成を選択するための実践的ガイドラインを精査する。
VTBenchは、解釈可能かつ効果的なマルチモーダル時系列分類のための統一された基盤を確立する。
関連論文リスト
- BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Graph-Based Multimodal Contrastive Learning for Chart Question Answering [11.828192162922436]
この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。
このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャする。
グラフの対照的な学習戦略は、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込むことができるように、モジュール間のノード表現を整列させる。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。