論文の概要: Automatic Histograms: Leveraging Language Models for Text Dataset
Exploration
- arxiv url: http://arxiv.org/abs/2402.14880v1
- Date: Wed, 21 Feb 2024 22:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:50:38.735812
- Title: Automatic Histograms: Leveraging Language Models for Text Dataset
Exploration
- Title(参考訳): 自動ヒストグラム:テキストデータセット探索に言語モデルを活用する
- Authors: Emily Reif, Crystal Qian, James Wexler, Minsuk Kahng
- Abstract要約: 本稿では,大規模言語モデルを活用した可視化ツールAutoHistogramsを紹介する。
AutoHistogramsは、関連する機能を自動的に識別し、ヒストグラムで視覚化する。
10人のデータワーカーによるユーザスタディでは、参加者はインサイトを素早く識別し、AutoHistogramsを使ってデータを探索することができる。
- 参考スコア(独自算出の注目度): 6.273685997216551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Making sense of unstructured text datasets is perennially difficult, yet
increasingly relevant with Large Language Models. Data workers often rely on
dataset summaries, especially distributions of various derived features. Some
features, like toxicity or topics, are relevant to many datasets, but many
interesting features are domain specific: instruments and genres for a music
dataset, or diseases and symptoms for a medical dataset. Accordingly, data
workers often run custom analyses for each dataset, which is cumbersome and
difficult. We present AutoHistograms, a visualization tool leveragingLLMs.
AutoHistograms automatically identifies relevant features, visualizes them with
histograms, and allows the user to interactively query the dataset for
categories of entities and create new histograms. In a user study with 10 data
workers (n=10), we observe that participants can quickly identify insights and
explore the data using AutoHistograms, and conceptualize a broad range of
applicable use cases. Together, this tool and user study contributeto the
growing field of LLM-assisted sensemaking tools.
- Abstract(参考訳): 構造化されていないテキストデータセットを理解することは、年々困難であるが、大きな言語モデルに益々関係してきている。
データワーカーはしばしばデータセットの要約、特に様々な派生した特徴の分布に依存する。
毒性やトピックなどのいくつかの機能は、多くのデータセットに関連するが、多くの興味深い特徴はドメイン固有である:音楽データセットの楽器とジャンル、医療データセットの疾患と症状。
したがって、データワーカーはデータセットごとにカスタム分析を実行することが多い。
本稿では,LLMを利用した可視化ツールAutoHistogramsを紹介する。
AutoHistogramsは、関連する機能を自動的に識別し、ヒストグラムで視覚化し、ユーザはエンティティのカテゴリのデータセットをインタラクティブにクエリし、新しいヒストグラムを作成することができる。
10人のデータワーカーによるユーザスタディ(n=10)において、参加者はAutoHistogramsを用いてインサイトを素早く把握し、データを探索し、幅広い応用事例を概念化する。
このツールとユーザ研究は、llm支援のセンスメイキングツールの成長に寄与する。
関連論文リスト
- infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Visualizing Linguistic Diversity of Text Datasets Synthesized by Large
Language Models [9.808214545408541]
LinguisticLensは,データセットの構文的多様性を理解し解析するための,新たなインタラクティブな可視化ツールである。
テキストデータセットの階層的な可視化をサポートしており、ユーザーは概要を素早くスキャンし、個々の例を検査することができる。
論文 参考訳(メタデータ) (2023-05-19T00:53:45Z) - ChartSumm: A Comprehensive Benchmark for Automatic Chart Summarization
of Long and Short Summaries [0.26097841018267615]
テキスト要約の自動チャートは視覚障害者に有効なツールである。
本稿では,84,363個のグラフからなる大規模ベンチマークデータセットであるChartSummを提案する。
論文 参考訳(メタデータ) (2023-04-26T15:25:24Z) - Demonstration of InsightPilot: An LLM-Empowered Automated Data
Exploration System [48.62158108517576]
本稿では,データ探索プロセスの簡略化を目的とした自動データ探索システムであるInsightPilotを紹介する。
InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。
簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣しています。
論文 参考訳(メタデータ) (2023-04-02T07:27:49Z) - Decoding Attention from Gaze: A Benchmark Dataset and End-to-End Models [6.642042615005632]
視線追跡は、生態学的に有効な環境において、人間の認知に関する豊富な行動データを提供する可能性がある。
本稿では,コンピュータビジョンツールを用いて,時間とともに参加者の過度な視覚的注意の軌跡を評価する作業である「アテンション・デコーディング」について検討する。
論文 参考訳(メタデータ) (2022-11-20T12:24:57Z) - Chart-to-Text: A Large-Scale Benchmark for Chart Summarization [9.647079534077472]
2つのデータセットと44,096のチャートを持つ大規模ベンチマークであるChart-to-textを提示する。
データセット構築プロセスを説明し、データセットを解析する。
論文 参考訳(メタデータ) (2022-03-12T17:01:38Z) - Data Collection and Labeling of Real-Time IoT-Enabled Bio-Signals in
Everyday Settings for Mental Health Improvement [6.7377504888630675]
リアルタイムの生理的データ収集と分析は、現代の幸福な応用において中心的な役割を果たす。
本稿では, ウェアラブルセンサからの光胸腺図, 加速度, ジャイロスコープ, 重力データのリアルタイム収集と解析を行うシステムを構築した。
論文 参考訳(メタデータ) (2021-08-02T20:56:48Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。