Fugu-MT 論文翻訳(概要): Do Text-to-Vis Benchmarks Test Real Use of Visualisations?

論文の概要: Do Text-to-Vis Benchmarks Test Real Use of Visualisations?

arxiv url: http://arxiv.org/abs/2407.19726v4
Date: Tue, 8 Oct 2024 02:49:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 14:27:29.654095
Title: Do Text-to-Vis Benchmarks Test Real Use of Visualisations?
Title（参考訳）: テキストと視覚のベンチマークはビジュアル化の実使用をテストするか?
Authors: Hy Nguyen, Xuefei He, Andrew Reeson, Cecile Paris, Josiah Poon, Jonathan K. Kummerfeld,
Abstract要約: 本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。 1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。
参考スコア（独自算出の注目度）: 11.442971909006657
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are able to generate code for visualisations in response to simple user requests. This is a useful application and an appealing one for NLP research because plots of data provide grounding for language. However, there are relatively few benchmarks, and those that exist may not be representative of what users do in practice. This paper investigates whether benchmarks reflect real-world use through an empirical study comparing benchmark datasets with code from public repositories. Our findings reveal a substantial gap, with evaluations not testing the same distribution of chart types, attributes, and actions as real-world examples. One dataset is representative, but requires extensive modification to become a practical end-to-end benchmark. This shows that new benchmarks are needed to support the development of systems that truly address users' visualisation needs. These observations will guide future data creation, highlighting which features hold genuine significance for users.
Abstract（参考訳）: 大規模な言語モデルは、単純なユーザリクエストに応答して、視覚化のためのコードを生成することができる。これは有用な応用であり、データプロットが言語の基礎を提供するため、NLP研究にとって魅力的なものである。しかし、ベンチマークは比較的少なく、存在するものはユーザーが実際に何をしているかを表すものではないかもしれない。本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。 1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。これらの観察は、将来のデータ生成をガイドし、どの機能がユーザにとって真に重要なのかを強調します。

関連論文リスト

Aligning Language Model Benchmarks with Pairwise Preferences [15.427340427081843]
ベンチマークアライメントを導入し、モデルパフォーマンスに関する限られた量の情報を使用して、オフラインベンチマークを自動的に更新します。次に、ベンチマーク問題に対する優先順の重み付けを学習するBenchAlignを提案する。我々の実験は、一致したベンチマークが、異なるサイズであっても、人間の好みのモデルに従って、正確に、見つからないモデルをランク付けできることを示している。
論文参考訳（メタデータ） (2026-02-02T23:11:09Z)
Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts [49.99400612296149]
強力な視覚的理解なしに、モデルが多くのベンチマークを達成できることがわかりました。これは視覚的な入力を意図した視覚中心のベンチマークでは特に問題となる。ベンチマーク設計には診断原則を採用しており、もしベンチマークをゲーム化できれば、それをゲーム化します。
論文参考訳（メタデータ） (2025-11-06T18:43:21Z)
Benchmark Profiling: Mechanistic Diagnosis of LLM Benchmarks [34.09939383415074]
ベンチマークプロファイリングは、ベンチマークのパフォーマンスを10の認知的基盤を持つ能力に分解する。パフォーマンス向上がユーザ認識能力に必ずしも変換されない理由を説明する。
論文参考訳（メタデータ） (2025-09-23T15:32:47Z)
Datasets for Fairness in Language Models: An In-Depth Survey [8.198294998446867]
本調査では,現在の言語モデル研究において,最も広く用いられている公平性データセットについて検討する。我々は、データセットとスコアリングメソッド間の人口格差の一貫したパターンを明らかにする統一評価フレームワークを導入する。モデルフェアネスに関する結論に影響を与えることがしばしば見過ごされるバイアスを強調し、これらのデータセットを選択し、組み合わせ、解釈するための実践的なガイダンスを提供する。
論文参考訳（メタデータ） (2025-06-29T22:11:58Z)
MEMERAG: A Multilingual End-to-End Meta-Evaluation Benchmark for Retrieval Augmented Generation [13.440594349043916]
マルチリンガル・エンド・エンド・エンド・メタ評価RAGベンチマーク(MEMERAG)を開発した。我々のベンチマークは,MIRACLデータセット上に構築されており,母国語質問を用いて多種多様な大言語モデル(LLM)による応答を生成する。提案するベンチマークでは,高度なプロンプト技術とLCMによる改善を確実に識別できることが示されている。
論文参考訳（メタデータ） (2025-02-24T13:58:42Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
Benchmark Data Repositories for Better Benchmarking [26.15831504718431]
機械学習の研究では、ベンチマークデータセットのパフォーマンスを通じてアルゴリズムを評価することが一般的である。我々は、これらの$textitbenchmarkデータレポジトリの状況と、ベンチマークを改善する上で彼らが果たす役割を分析します。
論文参考訳（メタデータ） (2024-10-31T16:30:08Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)
A Review of Benchmarks for Visual Defect Detection in the Manufacturing Industry [63.52264764099532]
本稿では,既存のベンチマークを用いて,それらの特性とユースケースを比較し,公開する。産業メトリクスの要求と試験手順についての研究は、研究されたベンチマークに提示され、適用されます。
論文参考訳（メタデータ） (2023-05-05T07:44:23Z)
Dense Sparse Retrieval: Using Sparse Language Models for Inference Efficient Dense Retrieval [37.22592489907125]
本研究では,高密度検索にスパース言語モデルを用いて推論効率を向上する方法について検討する。スパース言語モデルは、ほとんど精度を落とさず、推論速度を最大4.3倍改善した直接置換として使用することができる。
論文参考訳（メタデータ） (2023-03-31T20:21:32Z)
GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。 GEMv2は51言語で40のドキュメントデータセットをサポートする。すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文参考訳（メタデータ） (2022-06-22T17:52:30Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
Towards Understanding Sample Variance in Visually Grounded Language Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか? 人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文参考訳（メタデータ） (2020-10-07T20:45:14Z)
Towards Learning a Universal Non-Semantic Representation of Speech [18.54874934311111]
本稿では,非意味的タスクにおける音声表現の比較のためのベンチマークを提案し,教師なし三重項空間の目的に基づく表現を提案する。提案した表現は、ベンチマーク上の他の表現よりも優れており、多くの伝達学習タスクにおける最先端のパフォーマンスを超えている。
論文参考訳（メタデータ） (2020-02-25T21:38:24Z)
ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文参考訳（メタデータ） (2019-12-29T07:27:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。