論文の概要: An Evaluation-Centric Paradigm for Scientific Visualization Agents
- arxiv url: http://arxiv.org/abs/2509.15160v1
- Date: Thu, 18 Sep 2025 17:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.358675
- Title: An Evaluation-Centric Paradigm for Scientific Visualization Agents
- Title(参考訳): 科学的可視化エージェントのための評価中心パラダイム
- Authors: Kuangshi Ai, Haichao Miao, Zhimin Li, Chaoli Wang, Shusen Liu,
- Abstract要約: 本稿では,SciVisエージェントに必要な各種評価方法について検討する。
我々は、SciVisエージェント評価ベンチマークを開発するためのより広範なコラボレーションを提唱する。
- 参考スコア(独自算出の注目度): 11.974221351149687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multi-modal large language models (MLLMs) have enabled increasingly sophisticated autonomous visualization agents capable of translating user intentions into data visualizations. However, measuring progress and comparing different agents remains challenging, particularly in scientific visualization (SciVis), due to the absence of comprehensive, large-scale benchmarks for evaluating real-world capabilities. This position paper examines the various types of evaluation required for SciVis agents, outlines the associated challenges, provides a simple proof-of-concept evaluation example, and discusses how evaluation benchmarks can facilitate agent self-improvement. We advocate for a broader collaboration to develop a SciVis agentic evaluation benchmark that would not only assess existing capabilities but also drive innovation and stimulate future development in the field.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩により、ユーザの意図をデータ視覚化に変換できる高度な自律可視化エージェントが実現されている。
しかし、特に科学的な可視化(SciVis)では、現実世界の能力を評価するための大規模なベンチマークが欠如しているため、進歩の測定と異なるエージェントの比較は依然として困難である。
本稿では,SciVisエージェントに必要な各種評価方法について検討し,関連する課題を概説し,簡単な概念実証評価例を提供し,評価ベンチマークがエージェントの自己改善を促進する方法について考察する。
我々は、SciVisエージェント評価ベンチマークを開発するためのより広範なコラボレーションを提唱する。
関連論文リスト
- When AIs Judge AIs: The Rise of Agent-as-a-Judge Evaluation for LLMs [8.575522204707958]
大規模言語モデル(LLM)は能力と自律性が向上し、特にオープンで複雑なタスクにおいて、アウトプットの評価が重要なボトルネックとなっている。
新たなパラダイムが生まれつつある。AIエージェントを評価対象として使用することだ。
本稿では,エージェント・アズ・ア・ジャッジの概念を定義し,単一モデル審査員から動的マルチエージェント・ディスカッション・フレームワークへの進化を辿り,その強みと欠点を批判的に検証する。
論文 参考訳(メタデータ) (2025-08-05T01:42:25Z) - Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey [45.485318955120924]
従来の大規模言語モデル(LLM)からより高度なAIエージェントへの移行は、重要な進化のステップである。
既存の評価フレームワークは、LLMチャットボットとAIエージェントの区別を曖昧にし、適切なベンチマークを選択する研究者の間で混乱を招くことが多い。
本稿では,進化的観点からの現在の評価手法の体系的分析を紹介する。
論文 参考訳(メタデータ) (2025-06-06T17:52:18Z) - TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。
現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。
textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。
我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。