論文の概要: ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement
- arxiv url: http://arxiv.org/abs/2512.13303v1
- Date: Mon, 15 Dec 2025 13:21:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.674288
- Title: ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement
- Title(参考訳): ShowTable: 協調的なリフレクションとリファインメントによる創造的なテーブルの可視化
- Authors: Zhihang Liu, Xiaoyi Bao, Pandeng Li, Junjie Zhou, Zhaohe Liao, Yefei He, Kaixun Jiang, Chen-Wei Xie, Yun Zheng, Hongtao Xie,
- Abstract要約: ShowTableは、プログレッシブな自己修正プロセスを通じて、MLLMと拡散モデルとを相乗化するパイプラインである。
MLLMは視覚計画の推論と視覚的誤りの判断において中心的なオーケストレータとして機能する。
TableVisBenchは、5つの評価次元に800の挑戦的なインスタンスを持つ新しいベンチマークです。
- 参考スコア(独自算出の注目度): 58.957050610762565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While existing generation and unified models excel at general image generation, they struggle with tasks requiring deep reasoning, planning, and precise data-to-visual mapping abilities beyond general scenarios. To push beyond the existing limitations, we introduce a new and challenging task: creative table visualization, requiring the model to generate an infographic that faithfully and aesthetically visualizes the data from a given table. To address this challenge, we propose ShowTable, a pipeline that synergizes MLLMs with diffusion models via a progressive self-correcting process. The MLLM acts as the central orchestrator for reasoning the visual plan and judging visual errors to provide refined instructions, the diffusion execute the commands from MLLM, achieving high-fidelity results. To support this task and our pipeline, we introduce three automated data construction pipelines for training different modules. Furthermore, we introduce TableVisBench, a new benchmark with 800 challenging instances across 5 evaluation dimensions, to assess performance on this task. Experiments demonstrate that our pipeline, instantiated with different models, significantly outperforms baselines, highlighting its effective multi-modal reasoning, generation, and error correction capabilities.
- Abstract(参考訳): 既存の生成モデルと統合モデルは、一般的な画像生成において優れているが、一般的なシナリオを超えて、深い推論、計画、正確なデータ-視覚マッピング能力を必要とするタスクに苦労する。
既存の制限を超えて、創造的なテーブル視覚化という新しい挑戦的なタスクを導入し、モデルが与えられたテーブルからデータを忠実かつ美的に視覚化するインフォグラフィックを生成する必要がある。
この課題に対処するために,プログレッシブ自己修正プロセスを通じてMLLMと拡散モデルとの相乗化を行うパイプラインであるShowTableを提案する。
MLLMは、視覚計画を推論し、視覚的誤りを判断して洗練された指示を与える中央オーケストレータとして機能し、拡散はMLLMからのコマンドを実行し、高い忠実度の結果を得る。
このタスクとパイプラインをサポートするために、異なるモジュールをトレーニングするための3つの自動データ構築パイプラインを導入しました。
さらに、このタスクのパフォーマンスを評価するために、5つの評価次元にわたる800の挑戦的なインスタンスを持つ新しいベンチマークであるTableVisBenchを紹介します。
実験により、我々のパイプラインは異なるモデルでインスタンス化され、ベースラインを大幅に上回っており、その効果的なマルチモーダル推論、生成、エラー訂正機能を強調しています。
関連論文リスト
- WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens [69.97021957331326]
本稿では,VLMと拡散モデル間の分散表現空間をエンドツーエンドの最適化により学習するノイズクエリトークンを提案する。
また、細粒度画像の詳細を復元する線形投影を用いたVAE分岐も導入する。
論文 参考訳(メタデータ) (2025-12-02T09:02:20Z) - ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension [15.798942458550515]
本研究では、視覚的推論データセットを生成するための自動多段階コード駆動パイプラインを提案する。
トレーニング用38Kチャートと142KQ&Aペアを含む多次元・多段階データセットであるChartM$3$と,高品質な評価サンプル2,871。
論文 参考訳(メタデータ) (2025-11-04T09:45:34Z) - Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images [0.42970700836450476]
Visual-TableQAは、複雑なデータに対する視覚的推論を評価し、拡張するために設計された、大規模でオープンなドメインデータセットである。
Visual-TableQAは2.5kのリッチな構造化されたテーブルと6kの推論集約型QAペアで構成され、いずれもUSD 100以下のコストで生産される。
論文 参考訳(メタデータ) (2025-09-09T17:52:26Z) - Bootstrapping Grounded Chain-of-Thought in Multimodal LLMs for Data-Efficient Model Adaptation [25.283739839182147]
MLLMをChain-of-Thought(CoT)推論データでトレーニングすることで、特殊な視覚タスクにおけるモデル適応が容易になることを示す。
我々は,CoTデータに接地情報を注入することを目的とした,単純なブートストラップに基づくアプローチであるグラウンドド・チェーン・オブ・ワット(GCoT)を提案する。
様々な視覚形式をカバーする5つの視覚タスクに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2025-07-03T17:59:29Z) - LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering [30.51487692912812]
MLLM(Multimodal Large Language Models)は、大規模言語モデル(LLM)に視覚表現を統合することで、視覚的タスクを大幅に進歩させる。
目的を達成するためにモダリティリニア表現ステアリング(MoReS)を導入する。
MoReSはモデル全体の固有のモダリティを効果的に再バランスさせ、そこでキーとなるアイデアは、各モデル層をまたいだ視覚部分空間の線形変換を通じて視覚表現を操ることである。
論文 参考訳(メタデータ) (2024-12-16T21:14:11Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning [28.204261069650897]
71Kチャートで生成した191K命令からなる新しいチャート固有視覚言語インストラクションフォローデータセットであるChartInstructを紹介した。
4つの下流タスクの実験において、まずモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-03-14T01:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。