論文の概要: Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting
Generative AI-based Visualizations
- arxiv url: http://arxiv.org/abs/2402.02167v1
- Date: Sat, 3 Feb 2024 14:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 21:37:32.944475
- Title: Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting
Generative AI-based Visualizations
- Title(参考訳): Vi(E)va LLM!
生成AIに基づく可視化の評価と解釈のための概念スタック
- Authors: Luca Podo, Muhammad Ishmal, Marco Angelini
- Abstract要約: 大規模言語モデル(LLM)は、可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。
本稿では,LLMを用いて生成した可視化の評価をモデル化する問題に対処する。
本稿では,原子部品の評価を分解する理論評価スタックEvaLLMを提案する。
- 参考スコア(独自算出の注目度): 1.709620026135923
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The automatic generation of visualizations is an old task that, through the
years, has shown more and more interest from the research and practitioner
communities. Recently, large language models (LLM) have become an interesting
option for supporting generative tasks related to visualization, demonstrating
initial promising results. At the same time, several pitfalls, like the
multiple ways of instructing an LLM to generate the desired result, the
different perspectives leading the generation (code-based, image-based,
grammar-based), and the presence of hallucinations even for the visualization
generation task, make their usage less affordable than expected. Following
similar initiatives for benchmarking LLMs, this paper copes with the problem of
modeling the evaluation of a generated visualization through an LLM. We propose
a theoretical evaluation stack, EvaLLM, that decomposes the evaluation effort
in its atomic components, characterizes their nature, and provides an overview
of how to implement and interpret them. We also designed and implemented an
evaluation platform that provides a benchmarking resource for the visualization
generation task. The platform supports automatic and manual scoring conducted
by multiple assessors to support a fine-grained and semantic evaluation based
on the EvaLLM stack. Two case studies on GPT3.5-turbo with Code Interpreter and
Llama2-70-b models show the benefits of EvaLLM and illustrate interesting
results on the current state-of-the-art LLM-generated visualizations.
- Abstract(参考訳): 可視化の自動生成は、長年にわたり、研究や実践者コミュニティからの関心がますます高まっている古いタスクである。
近年,大規模言語モデル (LLM) は可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。
同時に、所望の結果を生成するためにLLMに指示する複数の方法、生成を導く異なる視点(コードベース、画像ベース、文法ベース)、そして視覚化生成タスクでさえ幻覚の存在など、いくつかの落とし穴が、彼らの使用を予想より安くする。
LLMをベンチマークする同様の取り組みに続き、LLMによる生成した可視化の評価をモデル化する問題に対処する。
我々は,原子成分の評価作業を分解し,その性質を特徴づける理論評価スタックであるevallmを提案し,それらの実装と解釈の概要を提供する。
また,可視化生成タスクのためのベンチマークリソースを提供する評価プラットフォームを設計し,実装した。
プラットフォームは、複数の評価者が行う自動および手動のスコアをサポートし、EvaLLMスタックに基づいたきめ細かいセマンティック評価をサポートする。
Code Interpreter と Llama2-70-b モデルを用いた GPT3.5-turbo の2つのケーススタディは、EvaLLM の利点を示し、現在最先端の LLM 生成可視化に関する興味深い結果を示している。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。
ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。
本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-06-24T17:52:16Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。
我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。