論文の概要: VT-Bench: A Unified Benchmark for Visual-Tabular Multi-Modal Learning
- arxiv url: http://arxiv.org/abs/2605.08146v1
- Date: Sun, 03 May 2026 09:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.395338
- Title: VT-Bench: A Unified Benchmark for Visual-Tabular Multi-Modal Learning
- Title(参考訳): VT-Bench:Visual-Tabular Multi-Modal Learningのための統一ベンチマーク
- Authors: Zi-Yi Jia, Zi-Jian Cheng, Xin-Yue Zhang, Kun-Yang Yu, Zhi Zhou, Yu-Feng Li, Lan-Zhe Guo,
- Abstract要約: textitVT-Benchは視覚・タブラル識別予測と生成的推論タスクを標準化するための最初の統一ベンチマークである。
VT-Benchは、9つのドメイン(医療中心で、ペット、メディア、輸送をカバー)に14のデータセットを756万のサンプルで集約する。
我々は,一助的専門家,特殊視覚タブラルモデル,汎用視覚言語モデル(VLM),ツール拡張手法など23種類の代表モデルを評価し,視覚タブラル学習の課題を浮き彫りにした。
- 参考スコア(独自算出の注目度): 21.05066248566548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-model learning has attracted great attention in visual-text tasks. However, visual-tabular data, which plays a pivotal role in high-stakes domains like healthcare and industry, remains underexplored. In this paper, we introduce \textit{VT-Bench}, the first unified benchmark for standardizing vision-tabular discriminative prediction and generative reasoning tasks. VT-Bench aggregates 14 datasets across 9 domains (medical-centric, while covering pets, media, and transportation) with over 756K samples. We evaluate 23 representative models, including unimodal experts, specialized visual-tabular models, general-purpose vision-language models (VLMs), and tool-augmented methods, highlighting substantial challenges of visual-tabular learning. We believe VT-Bench will stimulate the community to build more powerful multi-modal vision-tabular foundation models. Benchmark: https://github.com/Ziyi-Jia990/VT-Bench
- Abstract(参考訳): マルチモデル学習は視覚テキストタスクに大きな注目を集めている。
しかし、医療や産業などの高度な領域において重要な役割を担っているビジュアルタブラルデータは、いまだ探索されていない。
本稿では、視覚・タブラリ識別予測と生成的推論タスクを標準化するための最初の統一ベンチマークである「textit{VT-Bench}」を紹介する。
VT-Benchは、9つのドメイン(医療中心で、ペット、メディア、輸送をカバー)に14のデータセットを756万のサンプルで集約する。
我々は,一助的専門家,特殊視覚タブラルモデル,汎用視覚言語モデル(VLM),ツール拡張手法など23種類の代表モデルを評価し,視覚タブラル学習の課題を浮き彫りにした。
VT-Benchはコミュニティを刺激し、より強力なマルチモーダルビジョンタブラル基盤モデルを構築するだろうと考えています。
ベンチマーク:https://github.com/Ziyi-Jia990/VT-Bench
関連論文リスト
- Closing the Gap: Data-Centric Fine-Tuning of Vision Language Models for the Standardized Exam Questions [0.0]
高品質なデータによる教師付き微調整は、プロプライエタリなアプローチと競合する可能性があることを示す。
以上の結果から,データ合成と表現構文がマルチモーダル推論において決定的な役割を果たすことが明らかとなった。
論文 参考訳(メタデータ) (2025-11-14T14:28:14Z) - MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space [16.35255926212628]
MTabVQAは,多変数の視覚的質問応答に特化して設計された新しいベンチマークである。
MTabVQAは3,745組の複雑な質問応答対で構成されており、複数の視覚的に描画されたテーブルイメージに対してマルチホップ推論を必要とする。
MTabVQA-Instructを用いた微調整VLMでは,視覚的マルチタブラル推論の性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-13T11:21:00Z) - v1: Learning to Point Visual Tokens for Multimodal Grounded Reasoning [27.688428439248607]
簡単なポイント・アンド・コピーアプローチによるアクティブな視覚的参照を可能にする軽量な拡張であるv1を紹介する。
これにより、モデルは関連するイメージパッチを特定し、埋め込みを推論ストリームにコピーすることができる。
我々のポインティング戦略では、MLLMはセマンティックな表現をキーとして直接イメージパッチを選択でき、知覚的証拠はモデルの推論と同じ空間に埋め込まれている。
論文 参考訳(メタデータ) (2025-05-24T19:30:47Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [191.7830199016589]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。