論文の概要: Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics
- arxiv url: http://arxiv.org/abs/2603.05832v1
- Date: Fri, 06 Mar 2026 02:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.894583
- Title: Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics
- Title(参考訳): Lexara: 対話型ビジュアル分析のための大規模言語モデル評価のためのユーザ中心ツールキット
- Authors: Srishti Palani, Vidya Setlur,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語によるデータ分析を可能にすることで、会話型ビジュアル分析(CVA)を変換している。
LLMをCVAで評価することは、プログラミングの専門知識を必要とし、現実の複雑さを見落としている。
本稿では,CVAのユーザ中心評価ツールキットであるLexaraを紹介する。
- 参考スコア(独自算出の注目度): 15.251820893047467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are transforming Conversational Visual Analytics (CVA) by enabling data analysis through natural language. However, evaluating LLMs for CVA remains a challenge: requiring programming expertise, overlooking real-world complexity, and lacking interpretable metrics for multi-format (visualizations and text) outputs. Through interviews with 22 CVA developers and 16 end-users, we identified use cases, evaluation criteria and workflows. We present Lexara, a user-centered evaluation toolkit for CVA that operationalizes these insights into: (i) test cases spanning real-world scenarios; (ii) interpretable metrics covering visualization quality (data fidelity, semantic alignment, functional correctness, design clarity) and language quality (factual grounding, analytical reasoning, conversational coherence) using rule-based and LLM-as-a-Judge methods; and (iii) an interactive toolkit enabling experimental setup and multi-format and multi-level exploration of results without programming expertise. We conducted a two-week diary study with six CVA developers, drawn from our initial cohort of 22. Their feedback demonstrated Lexara's effectiveness for guiding appropriate model and prompt selection.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語によるデータ分析を可能にすることで、会話型ビジュアル分析(CVA)を変換している。
しかし、LCMs for CVAの評価は、プログラミングの専門知識を必要とすること、現実世界の複雑さを見渡すこと、マルチフォーマット(視覚化とテキスト)出力の解釈可能なメトリクスが欠けていること、など、依然として課題である。
CVA開発者22人とエンドユーザ16人へのインタビューを通じて、ユースケース、評価基準、ワークフローを特定しました。
私たちはこれらの洞察を運用するCVAのためのユーザ中心評価ツールキットであるLexaraを紹介します。
(i)実世界のシナリオにまたがるテストケース
二 ルールベース及びLLM-as-a-Judge法による可視化品質(データの忠実性、セマンティックアライメント、機能的正当性、設計の明確性)及び言語品質(実測地、分析的推論、会話的コヒーレンス)に関する解釈可能な指標
三 プログラムの専門知識のない実験的なセットアップ、マルチフォーマット、マルチレベル探索を可能にする対話型ツールキット。
CVA開発者6人と2週間の日誌調査を行い,最初のコホート22。
彼らのフィードバックは、適切なモデルと迅速な選択を導くレキサラの有効性を示した。
関連論文リスト
- Multilingual Self-Taught Faithfulness Evaluators [11.200203292660758]
合成多言語要約データからのみ学習するフレームワークである。
我々のフレームワークは、最先端の英語評価器や機械翻訳に基づくアプローチなど、既存のベースラインよりも改善されている。
論文 参考訳(メタデータ) (2025-07-28T12:01:59Z) - Understanding Large Language Model Behaviors through Interactive Counterfactual Generation and Analysis [22.755345889167934]
本稿では,大規模言語モデル (LLM) の対実解析による探索を可能にする対話型可視化システムを提案する。
本システムは,意味論的に意味のある反事実を生成する新しいアルゴリズムを特徴とする。
LLM実践者とのユーザスタディと専門家とのインタビューは、システムのユーザビリティと有効性を示している。
論文 参考訳(メタデータ) (2024-04-23T19:57:03Z) - LLM Comparator: Visual Analytics for Side-by-Side Evaluation of Large
Language Models [31.426274932333264]
自動側評価から結果をインタラクティブに分析する新しいビジュアル分析ツールであるComparatorを提案する。
このツールは、モデルがベースラインモデルよりも優れているか悪いかを、ユーザがいつ、なぜ理解するかを対話的にサポートする。
論文 参考訳(メタデータ) (2024-02-16T09:14:49Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。