論文の概要: Automated Question Generation on Tabular Data for Conversational Data Exploration
- arxiv url: http://arxiv.org/abs/2407.12859v1
- Date: Wed, 10 Jul 2024 08:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:18:00.858045
- Title: Automated Question Generation on Tabular Data for Conversational Data Exploration
- Title(参考訳): 対話型データ探索のための語彙データの自動質問生成
- Authors: Ritwik Chaudhuri, Rajmohan C, Kirushikesh DB, Arvind Agarwal,
- Abstract要約: 本稿では,会話環境におけるデータセットの関連するスライスに基づいて,自然言語で興味深い質問を推薦するシステムを提案する。
我々は、訓練済みの言語モデル(T5)の微調整のバリエーションを使って、特定の方法で自然言語の質問を生成する。
- 参考スコア(独自算出の注目度): 1.2574534342156884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploratory data analysis (EDA) is an essential step for analyzing a dataset to derive insights. Several EDA techniques have been explored in the literature. Many of them leverage visualizations through various plots. But it is not easy to interpret them for a non-technical user, and producing appropriate visualizations is also tough when there are a large number of columns. Few other works provide a view of some interesting slices of data but it is still difficult for the user to draw relevant insights from them. Of late, conversational data exploration is gaining a lot of traction among non-technical users. It helps the user to explore the dataset without having deep technical knowledge about the data. Towards this, we propose a system that recommends interesting questions in natural language based on relevant slices of a dataset in a conversational setting. Specifically, given a dataset, we pick a select set of interesting columns and identify interesting slices of such columns and column combinations based on few interestingness measures. We use our own fine-tuned variation of a pre-trained language model(T5) to generate natural language questions in a specific manner. We then slot-fill values in the generated questions and rank them for recommendations. We show the utility of our proposed system in a coversational setting with a collection of real datasets.
- Abstract(参考訳): 探索データ分析(EDA)は、洞察を導き出すためにデータセットを分析するための重要なステップである。
文学においていくつかのEDA技術が研究されている。
それらの多くは様々なプロットを通して可視化を活用している。
しかし、これらを非技術的ユーザとして解釈するのは容易ではなく、多数の列が存在する場合には、適切な視覚化を作成することも難しい。
興味深いデータのスライスを見ることができる他の作品はほとんどないが、ユーザが関連する洞察を引き出すことは依然として困難である。
最近、非技術系ユーザーの間では、会話によるデータ探索が大いに注目を集めている。
データに関する深い技術的な知識を必要とせずに、データセットを探索するのに役立つ。
そこで本研究では,対話環境におけるデータセットの関連するスライスに基づいて,自然言語による興味深い質問を推薦するシステムを提案する。
具体的には、データセットが与えられた場合、興味ある列のセレクトを選択し、興味ある測度の少ないカラムとカラムの組み合わせの興味深いスライスを識別する。
我々は、訓練済みの言語モデル(T5)の微調整のバリエーションを使って、特定の方法で自然言語の質問を生成する。
次に、生成された質問にスロットフルの値を付け、レコメンデーションのためにそれらをランク付けします。
提案システムの有用性を,実データセットの集合を用いた包括的設定で示す。
関連論文リスト
- DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - Automatic Histograms: Leveraging Language Models for Text Dataset
Exploration [6.273685997216551]
本稿では,大規模言語モデルを活用した可視化ツールAutoHistogramsを紹介する。
AutoHistogramsは、関連する機能を自動的に識別し、ヒストグラムで視覚化する。
10人のデータワーカーによるユーザスタディでは、参加者はインサイトを素早く識別し、AutoHistogramsを使ってデータを探索することができる。
論文 参考訳(メタデータ) (2024-02-21T22:29:16Z) - NNOSE: Nearest Neighbor Occupational Skill Extraction [55.22292957778972]
作業スキルデータセットの複雑さに対処する。
我々は、データセット統一方式で類似したスキルを検索するために、外部データストアを使用します。
我々は、データセット間設定において、頻度の低いパターンを予測し、最大30%のスパンF1で性能向上を観察する。
論文 参考訳(メタデータ) (2024-01-30T15:18:29Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Demonstration of InsightPilot: An LLM-Empowered Automated Data
Exploration System [48.62158108517576]
本稿では,データ探索プロセスの簡略化を目的とした自動データ探索システムであるInsightPilotを紹介する。
InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。
簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣しています。
論文 参考訳(メタデータ) (2023-04-02T07:27:49Z) - Aspect-Oriented Summarization through Query-Focused Extraction [23.62412515574206]
実際のユーザのニーズは、特定のクエリではなく、ユーザが興味を持っているデータセットの幅広いトピックという側面に、より深く浸透することが多い。
抽出クエリに焦点を絞った学習手法をベンチマークし、モデルを訓練するための対照的な拡張手法を提案する。
我々は2つのアスペクト指向データセットを評価し、この手法が一般的な要約システムよりも焦点を絞った要約を得られることを発見した。
論文 参考訳(メタデータ) (2021-10-15T18:06:21Z) - PeCoQ: A Dataset for Persian Complex Question Answering over Knowledge
Graph [0.0]
本稿では,ペルシャ語質問応答のためのデータセットである textitPeCoQ を紹介する。
このデータセットには、ペルシャの知識グラフであるFarsBaseから抽出された1万の複雑な質問と回答が含まれている。
データセットには、マルチリレーション、マルチエンタリティ、順序性、時間的制約など、さまざまな種類の複雑さがある。
論文 参考訳(メタデータ) (2021-06-27T08:21:23Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Quda: Natural Language Queries for Visual Data Analytics [33.983060903399554]
我々は、V-NLIが自由形式の自然言語から解析タスクを認識するのを支援するために、Qudaと呼ばれる新しいデータセットを提案する。
私たちのデータセットには14,035ドルの多様なユーザクエリが含まれており、それぞれに1つまたは複数の分析タスクがアノテートされている。
この研究は、解析的タスクを認識するための大規模コーパスを構築する最初の試みである。
論文 参考訳(メタデータ) (2020-05-07T05:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。