論文の概要: Automated Visualization Makeovers with LLMs
- arxiv url: http://arxiv.org/abs/2508.05637v1
- Date: Mon, 21 Jul 2025 11:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.10777
- Title: Automated Visualization Makeovers with LLMs
- Title(参考訳): LLMによる自動可視化
- Authors: Siddharth Gangwar, David A. Selby, Sebastian J. Vollmer,
- Abstract要約: ビジュアライゼーションのフェイルオーバーは、コミュニティがフィードバックを交換してチャートやデータの視覚化を改善する活動である。
マルチモーダル大言語モデル(LLM)はこのタスクをエミュレートできるだろうか?
当社のシステムは,ユーザガイドラインとデータ視覚化プラクティスの潜伏した知識を併用した,事前学習モデルの迅速なエンジニアリングを中心に構築されている。
- 参考スコア(独自算出の注目度): 0.716879432974126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Making a good graphic that accurately and efficiently conveys the desired message to the audience is both an art and a science, typically not taught in the data science curriculum. Visualisation makeovers are exercises where the community exchange feedback to improve charts and data visualizations. Can multi-modal large language models (LLMs) emulate this task? Given a plot in the form of an image file, or the code used to generate it, an LLM, primed with a list of visualization best practices, is employed to semi-automatically generate constructive criticism to produce a better plot. Our system is centred around prompt engineering of a pre-trained model, relying on a combination of userspecified guidelines and any latent knowledge of data visualization practices that might lie within an LLMs training corpus. Unlike other works, the focus is not on generating valid visualization scripts from raw data or prompts, but on educating the user how to improve their existing data visualizations according to an interpretation of best practices. A quantitative evaluation is performed to measure the sensitivity of the LLM agent to various plotting issues across different chart types. We make the tool available as a simple self-hosted applet with an accessible Web interface.
- Abstract(参考訳): 所望のメッセージを聴衆に正確かつ効率的に伝える優れたグラフィックを作ることは、芸術と科学の両方であり、典型的にはデータサイエンスカリキュラムでは教えられていない。
ビジュアライゼーションのフェイルオーバーは、コミュニティがフィードバックを交換してチャートやデータの視覚化を改善する活動である。
マルチモーダル大言語モデル(LLM)はこのタスクをエミュレートできるだろうか?
画像ファイルの形式のプロットや、それを生成するために使用されるコードが与えられた場合、LCMは、より優れたプロットを生成するために、半自動で建設的批判を生成するために使用される。
本システムは,LLMのトレーニングコーパス内に存在する可能性のある,ユーザ特定ガイドラインとデータ可視化プラクティスに関する潜伏した知識を組み合わせて,事前学習モデルの迅速なエンジニアリングを中心としている。
他の作業とは違って、生のデータやプロンプトから有効なビジュアライゼーションスクリプトを生成することではなく、ベストプラクティスの解釈に従って既存のデータビジュアライゼーションを改善する方法をユーザーに教育することに焦点を当てている。
グラフの種類によって異なるプロット問題に対するLLM剤の感度を定量的に評価する。
私たちはこのツールを、アクセス可能なWebインターフェースを備えたシンプルなセルフホストアプレットとして利用できるようにする。
関連論文リスト
- Open World Scene Graph Generation using Vision Language Models [7.024230124913843]
SGG(Scene-Graph Generation)は、画像中の物体を認識し、その正当な対関係を蒸留する。
オープンワールドSGG(Open-World SGG)は、視覚言語モデル(VLM)の事前訓練された知識に直接アクセスする、トレーニング不要で、効率的で、モデルに依存しないフレームワークである。
提案手法は,マルチモーダルプロンプト,埋め込みアライメント,および軽量なペアリファインメント戦略を組み合わせることで,未知のオブジェクト語彙や関係集合に対する推論を可能にする。
論文 参考訳(メタデータ) (2025-06-09T19:59:05Z) - Re-Aligning Language to Visual Objects with an Agentic Workflow [73.73778652260911]
言語に基づくオブジェクト検出は、視覚オブジェクトを言語表現に合わせることを目的としている。
近年の研究では視覚言語モデル(VLM)を活用して視覚オブジェクトに対する人間的な表現を自動的に生成している。
画像やテキストのプロンプトを適応的に調整することで,視覚オブジェクトに言語を適応させるエージェントワークフローを提案する。
論文 参考訳(メタデータ) (2025-03-30T16:41:12Z) - Training Large Recommendation Models via Graph-Language Token Alignment [53.3142545812349]
本稿では,グラフ言語トークンアライメントによる大規模推薦モデルのトレーニングを行う新しいフレームワークを提案する。
インタラクショングラフからアイテムとユーザノードを事前訓練されたLLMトークンにアライメントすることで、GLTAはLLMの推論能力を効果的に活用する。
さらに、エンドツーエンドのアイテム予測のためのトークンアライメントを最適化するために、GLLM(Graph-Language Logits Matching)を導入する。
論文 参考訳(メタデータ) (2025-02-26T02:19:10Z) - Democratizing Large Language Model-Based Graph Data Augmentation via Latent Knowledge Graphs [22.218522445858344]
グラフデータの不足やノイズによるグラフ表現学習には,データ拡張が必要である。
我々は、LCMのガイダンスであるDemoGraphを用いて、ブラックボックスのコンテキスト駆動グラフデータ拡張手法を提案する。
本手法は,電子健康記録(EHRs)のシナリオに優れ,文脈知識の最大限活用を実証する。
論文 参考訳(メタデータ) (2025-02-19T09:00:32Z) - Understanding Graphical Perception in Data Visualization through Zero-shot Prompting of Vision-Language Models [23.571294524129847]
視覚言語モデル(VLM)は多くのチャート理解タスクで成功している。
本稿では,VLMのゼロショットプロンプトの精度を,人間の評価プロファイルを定式化して評価することにより,そのような応用の基礎を定式化した。
論文 参考訳(メタデータ) (2024-10-31T23:24:46Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。