論文の概要: DataVisT5: A Pre-trained Language Model for Jointly Understanding Text and Data Visualization
- arxiv url: http://arxiv.org/abs/2408.07401v1
- Date: Wed, 14 Aug 2024 09:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 13:54:15.313739
- Title: DataVisT5: A Pre-trained Language Model for Jointly Understanding Text and Data Visualization
- Title(参考訳): DataVisT5: テキストとデータの可視化を共同で理解するための事前学習型言語モデル
- Authors: Zhuoyue Wan, Yuanfeng Song, Shuaimin Li, Chen Jason Zhang, Raymond Chi-Wing Wong,
- Abstract要約: データビジュアライゼーション(DV)は,ビッグデータの背後にある洞察を伝える上で,効率を向上させるための基本的かつ前提的ツールである。
その可能性にもかかわらず、T5やBERTのような事前訓練された言語モデル(PLM)をDVに適用することは、クロスモーダル情報を扱う上でのコストと課題によって制限されている。
textbfDataVisT5はDV用に調整された新しいPLMで、T5アーキテクチャを多目的学習とマルチタスクファインチューニングのハイブリッド戦略によって拡張する。
- 参考スコア(独自算出の注目度): 21.37997939694444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data visualization (DV) is the fundamental and premise tool to improve the efficiency in conveying the insights behind the big data, which has been widely accepted in existing data-driven world. Task automation in DV, such as converting natural language queries to visualizations (i.e., text-to-vis), generating explanations from visualizations (i.e., vis-to-text), answering DV-related questions in free form (i.e. FeVisQA), and explicating tabular data (i.e., table-to-text), is vital for advancing the field. Despite their potential, the application of pre-trained language models (PLMs) like T5 and BERT in DV has been limited by high costs and challenges in handling cross-modal information, leading to few studies on PLMs for DV. We introduce \textbf{DataVisT5}, a novel PLM tailored for DV that enhances the T5 architecture through a hybrid objective pre-training and multi-task fine-tuning strategy, integrating text and DV datasets to effectively interpret cross-modal semantics. Extensive evaluations on public datasets show that DataVisT5 consistently outperforms current state-of-the-art models on various DV-related tasks. We anticipate that DataVisT5 will not only inspire further research on vertical PLMs but also expand the range of applications for PLMs.
- Abstract(参考訳): データビジュアライゼーション(DV)は、既存のデータ駆動の世界で広く受け入れられているビッグデータの背後にある洞察を伝える上で、効率を向上させるための基本的かつ前提的ツールである。
例えば、自然言語クエリをビジュアライゼーションに変換すること(例えば、テキストからビジュアライゼーション)、ビジュアライゼーションから説明を生成すること(例えば、vis-to-text)、自由形式のDV関連質問に答えること(例えば、FeVisQA)、表データ(すなわち、テーブルからテキスト)を抽出することなど、DVにおけるタスク自動化は、フィールドを前進させる上で不可欠である。
これらの可能性にもかかわらず、T5やBERTのような事前訓練された言語モデル(PLM)をDVに適用することは、クロスモーダル情報を扱う上でのコストと課題によって制限されており、DVのためのPLMの研究はほとんど行われていない。
テキストとDVデータセットを統合して、相互モーダルなセマンティクスを効果的に解釈し、T5アーキテクチャを強化した新しいPLMである \textbf{DataVisT5}を紹介した。
公開データセットの大規模な評価は、DataVisT5がさまざまなDV関連タスクにおける現在の最先端モデルよりも一貫して優れていることを示している。
我々は、DataVisT5が垂直PLMのさらなる研究を刺激するだけでなく、PLMの応用範囲を広げることを期待している。
関連論文リスト
- TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Marrying Dialogue Systems with Data Visualization: Interactive Data
Visualization Generation from Natural Language Conversations [20.731675018911645]
本稿では,対話型テキスト・トゥ・ビジュアル化のためのCoVisというタスクを提案する。
ユーザとシステム間の一連のインタラクションを通じてDVを構築することを目的としている。
本稿では,これらのDV関連クエリに応答するマルチモーダルニューラルネットワークMMCoVisNetを提案する。
論文 参考訳(メタデータ) (2023-07-29T15:50:07Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Distilling Knowledge from Language Models for Video-based Action
Anticipation [31.59130630384036]
ビデオにおける将来の行動を予測することは、多くの自律的で補助的な技術に役立ちます。
本稿では、トレーニング中に利用できるテキストモダリティを利用して、ターゲットアクション予測データセットに存在しない相補的な情報をもたらす方法を提案する。
論文 参考訳(メタデータ) (2022-10-12T08:02:11Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - nmT5 -- Is parallel data still relevant for pre-training massively
multilingual language models? [9.560948239388662]
本研究は,mT5事前学習における並列データの導入が及ぼす影響について考察する。
機械翻訳などの目的を持つマルチタスク言語モデリングは,性能向上のための簡単な方法であることがわかった。
論文 参考訳(メタデータ) (2021-06-03T23:12:27Z) - The Role of the Input in Natural Language Video Description [60.03448250024277]
自然言語ビデオ記述(NLVD)は最近、コンピュータビジョン、自然言語処理、マルチメディア、自律型ロボティクスのコミュニティに強い関心を集めている。
本研究は, 視覚入力の役割に関する広範な研究を行い, 総合的なNLP性能について評価した。
t-SNEをベースとした解析を行い,検討した変換が全体的視覚データ分布に与える影響を評価する。
論文 参考訳(メタデータ) (2021-02-09T19:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。