論文の概要: Automatic Histograms: Leveraging Language Models for Text Dataset
Exploration
- arxiv url: http://arxiv.org/abs/2402.14880v1
- Date: Wed, 21 Feb 2024 22:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:50:38.735812
- Title: Automatic Histograms: Leveraging Language Models for Text Dataset
Exploration
- Title(参考訳): 自動ヒストグラム:テキストデータセット探索に言語モデルを活用する
- Authors: Emily Reif, Crystal Qian, James Wexler, Minsuk Kahng
- Abstract要約: 本稿では,大規模言語モデルを活用した可視化ツールAutoHistogramsを紹介する。
AutoHistogramsは、関連する機能を自動的に識別し、ヒストグラムで視覚化する。
10人のデータワーカーによるユーザスタディでは、参加者はインサイトを素早く識別し、AutoHistogramsを使ってデータを探索することができる。
- 参考スコア(独自算出の注目度): 6.273685997216551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Making sense of unstructured text datasets is perennially difficult, yet
increasingly relevant with Large Language Models. Data workers often rely on
dataset summaries, especially distributions of various derived features. Some
features, like toxicity or topics, are relevant to many datasets, but many
interesting features are domain specific: instruments and genres for a music
dataset, or diseases and symptoms for a medical dataset. Accordingly, data
workers often run custom analyses for each dataset, which is cumbersome and
difficult. We present AutoHistograms, a visualization tool leveragingLLMs.
AutoHistograms automatically identifies relevant features, visualizes them with
histograms, and allows the user to interactively query the dataset for
categories of entities and create new histograms. In a user study with 10 data
workers (n=10), we observe that participants can quickly identify insights and
explore the data using AutoHistograms, and conceptualize a broad range of
applicable use cases. Together, this tool and user study contributeto the
growing field of LLM-assisted sensemaking tools.
- Abstract(参考訳): 構造化されていないテキストデータセットを理解することは、年々困難であるが、大きな言語モデルに益々関係してきている。
データワーカーはしばしばデータセットの要約、特に様々な派生した特徴の分布に依存する。
毒性やトピックなどのいくつかの機能は、多くのデータセットに関連するが、多くの興味深い特徴はドメイン固有である:音楽データセットの楽器とジャンル、医療データセットの疾患と症状。
したがって、データワーカーはデータセットごとにカスタム分析を実行することが多い。
本稿では,LLMを利用した可視化ツールAutoHistogramsを紹介する。
AutoHistogramsは、関連する機能を自動的に識別し、ヒストグラムで視覚化し、ユーザはエンティティのカテゴリのデータセットをインタラクティブにクエリし、新しいヒストグラムを作成することができる。
10人のデータワーカーによるユーザスタディ(n=10)において、参加者はAutoHistogramsを用いてインサイトを素早く把握し、データを探索し、幅広い応用事例を概念化する。
このツールとユーザ研究は、llm支援のセンスメイキングツールの成長に寄与する。
関連論文リスト
- Capturing and Anticipating User Intents in Data Analytics via Knowledge Graphs [0.061446808540639365]
この研究は、人間中心の複雑な分析を捉えるための基本的なフレームワークとして、知識グラフ(KG)の使用について検討する。
生成されたKGに格納されたデータは、これらのシステムと対話するユーザーに補助(例えばレコメンデーション)を提供するために利用される。
論文 参考訳(メタデータ) (2024-11-01T20:45:23Z) - "Show Me What's Wrong!": Combining Charts and Text to Guide Data Analysis [4.016592757754338]
金融詐欺検出の文脈では、アナリストは取引データの中で不審な活動を素早く特定する必要がある。
これは、パターンの認識、グループ化、比較といった複雑な探索的なタスクからなる反復的なプロセスである。
これらのステップに固有の情報の過負荷を軽減するため、自動化された情報ハイライト、大規模言語モデルが生成するテキストインサイト、視覚分析を組み合わせたツールを提案する。
論文 参考訳(メタデータ) (2024-10-01T14:16:10Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - ChartSumm: A Comprehensive Benchmark for Automatic Chart Summarization
of Long and Short Summaries [0.26097841018267615]
テキスト要約の自動チャートは視覚障害者に有効なツールである。
本稿では,84,363個のグラフからなる大規模ベンチマークデータセットであるChartSummを提案する。
論文 参考訳(メタデータ) (2023-04-26T15:25:24Z) - Demonstration of InsightPilot: An LLM-Empowered Automated Data
Exploration System [48.62158108517576]
本稿では,データ探索プロセスの簡略化を目的とした自動データ探索システムであるInsightPilotを紹介する。
InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。
簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣しています。
論文 参考訳(メタデータ) (2023-04-02T07:27:49Z) - Decoding Attention from Gaze: A Benchmark Dataset and End-to-End Models [6.642042615005632]
視線追跡は、生態学的に有効な環境において、人間の認知に関する豊富な行動データを提供する可能性がある。
本稿では,コンピュータビジョンツールを用いて,時間とともに参加者の過度な視覚的注意の軌跡を評価する作業である「アテンション・デコーディング」について検討する。
論文 参考訳(メタデータ) (2022-11-20T12:24:57Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。