Fugu-MT 論文翻訳(概要): Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting Generative AI-based Visualizations

論文の概要: Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting Generative AI-based Visualizations

arxiv url: http://arxiv.org/abs/2402.02167v1
Date: Sat, 3 Feb 2024 14:28:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 21:37:32.944475
Title: Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting Generative AI-based Visualizations
Title（参考訳）: Vi(E)va LLM! 生成AIに基づく可視化の評価と解釈のための概念スタック
Authors: Luca Podo, Muhammad Ishmal, Marco Angelini
Abstract要約: 大規模言語モデル(LLM)は、可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。本稿では,LLMを用いて生成した可視化の評価をモデル化する問題に対処する。本稿では,原子部品の評価を分解する理論評価スタックEvaLLMを提案する。
参考スコア（独自算出の注目度）: 1.709620026135923
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The automatic generation of visualizations is an old task that, through the years, has shown more and more interest from the research and practitioner communities. Recently, large language models (LLM) have become an interesting option for supporting generative tasks related to visualization, demonstrating initial promising results. At the same time, several pitfalls, like the multiple ways of instructing an LLM to generate the desired result, the different perspectives leading the generation (code-based, image-based, grammar-based), and the presence of hallucinations even for the visualization generation task, make their usage less affordable than expected. Following similar initiatives for benchmarking LLMs, this paper copes with the problem of modeling the evaluation of a generated visualization through an LLM. We propose a theoretical evaluation stack, EvaLLM, that decomposes the evaluation effort in its atomic components, characterizes their nature, and provides an overview of how to implement and interpret them. We also designed and implemented an evaluation platform that provides a benchmarking resource for the visualization generation task. The platform supports automatic and manual scoring conducted by multiple assessors to support a fine-grained and semantic evaluation based on the EvaLLM stack. Two case studies on GPT3.5-turbo with Code Interpreter and Llama2-70-b models show the benefits of EvaLLM and illustrate interesting results on the current state-of-the-art LLM-generated visualizations.
Abstract（参考訳）: 可視化の自動生成は、長年にわたり、研究や実践者コミュニティからの関心がますます高まっている古いタスクである。近年,大規模言語モデル (LLM) は可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。同時に、所望の結果を生成するためにLLMに指示する複数の方法、生成を導く異なる視点(コードベース、画像ベース、文法ベース)、そして視覚化生成タスクでさえ幻覚の存在など、いくつかの落とし穴が、彼らの使用を予想より安くする。 LLMをベンチマークする同様の取り組みに続き、LLMによる生成した可視化の評価をモデル化する問題に対処する。我々は,原子成分の評価作業を分解し,その性質を特徴づける理論評価スタックであるevallmを提案し,それらの実装と解釈の概要を提供する。また,可視化生成タスクのためのベンチマークリソースを提供する評価プラットフォームを設計し,実装した。プラットフォームは、複数の評価者が行う自動および手動のスコアをサポートし、EvaLLMスタックに基づいたきめ細かいセマンティック評価をサポートする。 Code Interpreter と Llama2-70-b モデルを用いた GPT3.5-turbo の2つのケーススタディは、EvaLLM の利点を示し、現在最先端の LLM 生成可視化に関する興味深い結果を示している。

関連論文リスト

VIS-Shepherd: Constructing Critic for LLM-based Data Visualization Generation [17.6462454905092]
MLLM(Multimodal Large Language Model)をベースとした評価モデルであるVIS-Shepherdを紹介する。当社のアプローチの核心は、高品質な可視化基準データセットを構築するためのフレームワークです。実験の結果,オープンソースMLLMモデルでは,小型(7Bパラメータ)のMLLMモデルでも大幅な性能向上が得られた。
論文参考訳（メタデータ） (2025-06-16T10:15:38Z)
Taming LLMs with Negative Samples: A Reference-Free Framework to Evaluate Presentation Content with Actionable Feedback [15.90651992769166]
本稿では、文書を効果的に要約し、幅広い聴衆に概念を伝えることができるプレゼンテーションスライドにおけるマルチモーダルコンテンツの評価に焦点をあてる。我々は、さまざまなトピックにまたがる人為的な高品質なプレゼンテーションからなるベンチマークデータセットRefSlidesを紹介した。次に、プレゼンテーションの内容の固有の特性を特徴付けるためのメトリクスセットと、これらのメトリクスのスコアと動作可能なフィードバックを生成する評価手法であるREFLEXを提案する。
論文参考訳（メタデータ） (2025-05-23T14:27:57Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-04-21T09:30:41Z)
V-MAGE: A Game Evaluation Framework for Assessing Visual-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
V-MAGEはMLLMの視覚的推論能力を評価するために設計されたゲームベースの評価フレームワークである。 V-MAGEを用いて主要なMLLMを評価し,視覚的知覚と推論において重要な課題を明らかにする。
論文参考訳（メタデータ） (2025-04-08T15:43:01Z)
LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning [39.54891426369773]
モデルのサイズ、アーキテクチャ、パフォーマンスのトレードオフについては、まだ未検討のままです。本稿では,近年の言語モデルと多様な視覚的バックボーンを統合したMLLMの新しいファミリーであるLLaVA-MOREを紹介する。公平な比較を保証するため、すべてのアーキテクチャで一貫して適用される統一的なトレーニングプロトコルを使用します。
論文参考訳（メタデータ） (2025-03-19T18:10:12Z)
Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは、LLMベースのビジュアル生成モデルのトレーニング効率と生成品質を向上させる改良された自動回帰ビジュアル生成方法である。提案手法は,モデルのトレーニング効率と性能を100Mから1.4Bに継続的に向上させ,同じFIDを達成しながらトレーニング時間を半減させる。
論文参考訳（メタデータ） (2025-01-01T15:58:51Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Visualization Literacy of Multimodal Large Language Models: A Comparative Study [12.367399155606162]
MLLM(Multimodal large language model)は、MLLM(Multimodal large language model)とLLM(LLM)の固有の能力を組み合わせて、マルチモーダルコンテキストを推論する。ビジュアライゼーションにおける最近の多くの研究は、可視化結果を理解し、解釈し、自然言語のユーザに対して視覚化の内容を説明するMLLMの能力を実証している。本研究では,可視化リテラシーの概念を利用してMLLMを評価することにより,そのギャップを埋めることを目的とする。
論文参考訳（メタデータ） (2024-06-24T17:52:16Z)
MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。 MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文参考訳（メタデータ） (2024-02-18T04:28:28Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
An Examination of the Compositionality of Large Generative Vision-Language Models [7.639748270719836]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。本稿では,GVLMの構成性を評価するための評価指標(VisualGPTScoreなど)と現在のベンチマークについて検討する。我々は,GVLMの言語的能力を利用して,現在のベンチマークにおける構文バイアスを同定する。
論文参考訳（メタデータ） (2023-08-21T06:50:29Z)
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文参考訳（メタデータ） (2023-06-15T16:39:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。