論文の概要: Automatic Data Visualization Generation from Chinese Natural Language
Questions
- arxiv url: http://arxiv.org/abs/2309.07650v1
- Date: Thu, 14 Sep 2023 12:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 15:06:14.494441
- Title: Automatic Data Visualization Generation from Chinese Natural Language
Questions
- Title(参考訳): 中国語自然言語質問からの自動データ可視化
- Authors: Yan Ge and Victor Junqiu Wei and Yuanfeng Song and Jason Chen Zhang
and Raymond Chi-Wing Wong
- Abstract要約: 本論文では,中国語のテキスト・ツー・ヴィジュアライズ・データセットを提案し,この問題に対処するための最初の試みを実証する。
我々のモデルは,多言語BERTをエンコーダとして統合し,言語間能力を高め,語表現学習に$n$-gramの情報を注入する。
- 参考スコア(独自算出の注目度): 23.777512332679194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data visualization has emerged as an effective tool for getting insights from
massive datasets. Due to the hardness of manipulating the programming languages
of data visualization, automatic data visualization generation from natural
languages (Text-to-Vis) is becoming increasingly popular. Despite the plethora
of research effort on the English Text-to-Vis, studies have yet to be conducted
on data visualization generation from questions in Chinese. Motivated by this,
we propose a Chinese Text-to-Vis dataset in the paper and demonstrate our first
attempt to tackle this problem. Our model integrates multilingual BERT as the
encoder, boosts the cross-lingual ability, and infuses the $n$-gram information
into our word representation learning. Our experimental results show that our
dataset is challenging and deserves further research.
- Abstract(参考訳): データビジュアライゼーションは、大量のデータセットから洞察を得るために有効なツールとして登場した。
データビジュアライゼーションのプログラミング言語を操作することの難しさから、自然言語(Text-to-Vis)からの自動データビジュアライゼーション生成が普及している。
英語のテキスト・トゥ・ヴィジュアライズに関する研究は多岐にわたるが、中国語の質問からデータ視覚化を生成する研究はまだ行われていない。
そこで本論文では,この課題に対処する最初の試みとして,中国語のテキスト・ツー・ビジュアルデータセットを提案する。
我々のモデルは,多言語BERTをエンコーダとして統合し,言語間能力を高め,語表現学習に$n$-gramの情報を注入する。
実験の結果、我々のデータセットは挑戦的であり、さらなる研究に値することが示された。
関連論文リスト
- Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - 3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。
我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。
実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-29T04:01:30Z) - TEXTRON: Weakly Supervised Multilingual Text Detection through Data
Programming [21.88026116276415]
テキスト検出はコンピュータビジョン(CV)分野における課題である
テキスト検出には単語レベルのラベル付きデータが不足しており、特に多言語設定やインドのスクリプトではそうである。
データプログラミングベースのアプローチであるTEXTRONを提案し、ユーザは様々なテキスト検出方法を弱い監督ベースの学習フレームワークにプラグインできる。
論文 参考訳(メタデータ) (2024-02-15T09:18:18Z) - Expand BERT Representation with Visual Information via Grounded Language
Learning with Multimodal Partial Alignment [11.148099070407431]
GroundedBERT(グラウンドドバート)は、視覚的にグラウンドドされた情報でBERT表現を強化する、グラウンドド言語学習法である。
提案手法は,GLUEおよびSQuADデータセットの様々な言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-04T03:16:48Z) - Natural Language Interfaces for Tabular Data Querying and Visualization: A Survey [30.836162812277085]
大規模言語モデル(LLM)の台頭はこの分野をさらに進歩させ、自然言語処理技術のための新たな道を開いた。
本稿では,これらのインターフェースの基礎となる基本概念と技術を紹介し,セマンティック解析に特に重点を置いている。
この中には、LSMの影響を深く掘り下げ、その強み、制限、将来の改善の可能性を強調している。
論文 参考訳(メタデータ) (2023-10-27T05:01:20Z) - Using Large Language Models to Generate Engaging Captions for Data
Visualizations [51.98253121636079]
大規模言語モデル(LLM)は、高度なディープラーニング技術を用いて人間のような散文を生成する。
主な課題は、プロンプトエンジニアリングと呼ばれるLLMの最も効果的なプロンプトを設計することである。
我々は,LLM GPT-3を用いた最初の実験について報告し,いくつかの有望な結果を得た。
論文 参考訳(メタデータ) (2022-12-27T23:56:57Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Quda: Natural Language Queries for Visual Data Analytics [33.983060903399554]
我々は、V-NLIが自由形式の自然言語から解析タスクを認識するのを支援するために、Qudaと呼ばれる新しいデータセットを提案する。
私たちのデータセットには14,035ドルの多様なユーザクエリが含まれており、それぞれに1つまたは複数の分析タスクがアノテートされている。
この研究は、解析的タスクを認識するための大規模コーパスを構築する最初の試みである。
論文 参考訳(メタデータ) (2020-05-07T05:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。