論文の概要: Do Text-to-Vis Benchmarks Test Real Use of Visualisations?
- arxiv url: http://arxiv.org/abs/2407.19726v2
- Date: Fri, 9 Aug 2024 00:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 17:59:25.737909
- Title: Do Text-to-Vis Benchmarks Test Real Use of Visualisations?
- Title(参考訳): テキストと視覚のベンチマークはビジュアル化の実使用をテストするか?
- Authors: Hy Nguyen, Xuefei He, Andrew Reeson, Cecile Paris, Josiah Poon, Jonathan K. Kummerfeld,
- Abstract要約: ベンチマークデータセットと公開リポジトリのコードを比較します。
この結果から,グラフの種類や属性,アクション数など,同じ分布をテストせずに評価した結果,データセットの実質的なギャップが明らかとなった。
これは、ユーザの視覚的ニーズに真に対処するシステムの開発をサポートするために、新しい、より多くのベンチマークが必要であることを示している。
- 参考スコア(独自算出の注目度): 11.442971909006657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are able to generate code for visualisations in response to user requests. This is a useful application, and an appealing one for NLP research because plots of data provide grounding for language. However, there are relatively few benchmarks, and it is unknown whether those that exist are representative of what people do in practice. This paper aims to answer that question through an empirical study comparing benchmark datasets and code from public repositories. Our findings reveal a substantial gap in datasets, with evaluations not testing the same distribution of chart types, attributes, and the number of actions. The only representative dataset requires modification to become an end-to-end and practical benchmark. This shows that new, more benchmarks are needed to support the development of systems that truly address users' visualisation needs. These observations will guide future data creation, highlighting which features hold genuine significance for users.
- Abstract(参考訳): 大規模な言語モデルは、ユーザの要求に応じて、視覚化のためのコードを生成することができる。
これは有用な応用であり、データプロットが言語の基礎を提供するため、NLP研究にとって魅力的な応用である。
しかし、ベンチマークは比較的少ないため、実際に行われていることを表すものかどうかは不明である。
本稿では,公開リポジトリのベンチマークデータセットとコードを比較した実証的研究を通じて,その質問に答えることを目的とする。
この結果から,グラフの種類や属性,アクション数など,同じ分布をテストせずに評価した結果,データセットの実質的なギャップが明らかとなった。
唯一の代表的データセットは、エンドツーエンドで実用的なベンチマークになるために修正が必要である。
これは、ユーザの視覚的ニーズに真に対処するシステムの開発をサポートするために、新しい、より多くのベンチマークが必要であることを示している。
これらの観察は、将来のデータ生成をガイドし、どの機能がユーザにとって真に重要なのかを強調します。
関連論文リスト
- Benchmark Data Repositories for Better Benchmarking [26.15831504718431]
機械学習の研究では、ベンチマークデータセットのパフォーマンスを通じてアルゴリズムを評価することが一般的である。
我々は、これらの$textitbenchmarkデータレポジトリの状況と、ベンチマークを改善する上で彼らが果たす役割を分析します。
論文 参考訳(メタデータ) (2024-10-31T16:30:08Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - A Review of Benchmarks for Visual Defect Detection in the Manufacturing
Industry [63.52264764099532]
本稿では,既存のベンチマークを用いて,それらの特性とユースケースを比較し,公開する。
産業メトリクスの要求と試験手順についての研究は、研究されたベンチマークに提示され、適用されます。
論文 参考訳(メタデータ) (2023-05-05T07:44:23Z) - Dense Sparse Retrieval: Using Sparse Language Models for Inference
Efficient Dense Retrieval [37.22592489907125]
本研究では,高密度検索にスパース言語モデルを用いて推論効率を向上する方法について検討する。
スパース言語モデルは、ほとんど精度を落とさず、推論速度を最大4.3倍改善した直接置換として使用することができる。
論文 参考訳(メタデータ) (2023-03-31T20:21:32Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - Towards Learning a Universal Non-Semantic Representation of Speech [18.54874934311111]
本稿では,非意味的タスクにおける音声表現の比較のためのベンチマークを提案し,教師なし三重項空間の目的に基づく表現を提案する。
提案した表現は、ベンチマーク上の他の表現よりも優れており、多くの伝達学習タスクにおける最先端のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2020-02-25T21:38:24Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。