論文の概要: Marrying Dialogue Systems with Data Visualization: Interactive Data
Visualization Generation from Natural Language Conversations
- arxiv url: http://arxiv.org/abs/2307.16013v1
- Date: Sat, 29 Jul 2023 15:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 18:05:23.943317
- Title: Marrying Dialogue Systems with Data Visualization: Interactive Data
Visualization Generation from Natural Language Conversations
- Title(参考訳): データ可視化による対話システム間結婚:自然言語対話による対話型データ可視化
- Authors: Yuanfeng Song and Xuefang Zhao and Raymond Chi-Wing Wong
- Abstract要約: 本稿では,対話型テキスト・トゥ・ビジュアル化のためのCoVisというタスクを提案する。
ユーザとシステム間の一連のインタラクションを通じてDVを構築することを目的としている。
本稿では,これらのDV関連クエリに応答するマルチモーダルニューラルネットワークMMCoVisNetを提案する。
- 参考スコア(独自算出の注目度): 20.731675018911645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data visualization (DV) has become the prevailing tool in the market due to
its effectiveness into illustrating insights in vast amounts of data. To lower
the barrier of using DVs, automatic DV tasks, such as natural language question
(NLQ) to visualization translation (formally called text-to-vis), have been
investigated in the research community. However, text-to-vis assumes the NLQ to
be well-organized and expressed in a single sentence. However, in real-world
settings, complex DV is needed through consecutive exchanges between the DV
system and the users. In this paper, we propose a new task named CoVis, short
for Conversational text-to-Visualization, aiming at constructing DVs through a
series of interactions between users and the system. Since it is the task which
has not been studied in the literature, we first build a benchmark dataset
named Dial-NVBench, including dialogue sessions with a sequence of queries from
a user and responses from the system. Then, we propose a multi-modal neural
network named MMCoVisNet to answer these DV-related queries. In particular,
MMCoVisNet first fully understands the dialogue context and determines the
corresponding responses. Then, it uses adaptive decoders to provide the
appropriate replies: (i) a straightforward text decoder is used to produce
general responses, (ii) an SQL-form decoder is applied to synthesize data
querying responses, and (iii) a DV-form decoder tries to construct the
appropriate DVs. We comparatively evaluate MMCoVisNet with other baselines over
our proposed benchmark dataset. Experimental results validate that MMCoVisNet
performs better than existing baselines and achieves a state-of-the-art
performance.
- Abstract(参考訳): データビジュアライゼーション(DV)は、大量のデータに対する洞察を実証する効果により、市場で広く普及しているツールとなっている。
DVの使用障壁を低減するため、自然言語質問(NLQ)や可視化翻訳(正式にはtext-to-vis)といった自動DVタスクが研究コミュニティで研究されている。
しかし、テキスト・トゥ・ビジュはNLQをうまく整理し、単一の文で表すと仮定する。
しかし、現実世界では、DVシステムとユーザ間の連続的な交換によって複雑なDVが必要である。
本稿では,ユーザとシステム間の一連のインタラクションを通じてDVを構築することを目的とした,会話型テキスト可視化のためのCoVisというタスクを提案する。
文献では研究されていないタスクであるため、まずダイアル・NVBenchというベンチマークデータセットを構築し、ユーザからのクエリのシーケンスとシステムからの応答の対話セッションを含む。
そこで我々は,これらのDV関連クエリに応答するマルチモーダルニューラルネットワークMMCoVisNetを提案する。
特にMMCoVisNetはまず対話コンテキストを完全に理解し、対応する応答を決定する。
そして、アダプティブデコーダを使用して適切な応答を提供します。
(i)一般的な応答を生成するために直接テキストデコーダが使用される。
(ii)SQL形式のデコーダを適用してデータクエリ応答を合成し、
(iii) DV型デコーダは適切なDVを構築しようとする。
提案するベンチマークデータセットに対するmmcovisnetと他のベースラインの比較評価を行った。
実験の結果,MMCoVisNetは既存のベースラインよりも優れた性能を示し,最先端の性能を実現している。
関連論文リスト
- Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval [26.585985828583304]
本稿では,マルチモーダルクエリを理解可能なテキスト検索機能を実現するために,エンドツーエンドのマルチモーダル検索システムRet-XKnowを提案する。
マルチモーダルインタラクションを効果的に学習するために、視覚対話データセットから構築したVisual Dialogue-to-Retrievalデータセットも導入する。
提案手法は,ゼロショット設定における検索性能を大幅に向上するだけでなく,微調整シナリオの大幅な改善も達成できることを示す。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - DataVisT5: A Pre-trained Language Model for Jointly Understanding Text and Data Visualization [21.37997939694444]
データビジュアライゼーション(DV)は,ビッグデータの背後にある洞察を伝える上で,効率を向上させるための基本的かつ前提的ツールである。
その可能性にもかかわらず、T5やBERTのような事前訓練された言語モデル(PLM)をDVに適用することは、クロスモーダル情報を扱う上でのコストと課題によって制限されている。
textbfDataVisT5はDV用に調整された新しいPLMで、T5アーキテクチャを多目的学習とマルチタスクファインチューニングのハイブリッド戦略によって拡張する。
論文 参考訳(メタデータ) (2024-08-14T09:20:17Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Resolving References in Visually-Grounded Dialogue via Text Generation [3.8673630752805446]
視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。
本稿では,言語文脈における中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。
次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。
論文 参考訳(メタデータ) (2023-09-23T17:07:54Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-11T19:14:39Z) - Text is NOT Enough: Integrating Visual Impressions intoOpen-domain
Dialogue Generation [14.104415187890773]
自然言語処理(NLP)におけるオープンドメイン対話生成は、デフォルトでは純粋言語タスクである。
ビジュアルインプレッション (VIs) と呼ばれる隠された画像は、対話理解を強化するためにテキストのみのデータから探索することができる。
我々は、純粋言語対話データセットに基づくVIを明示的に構築するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-13T08:57:13Z) - The Role of the Input in Natural Language Video Description [60.03448250024277]
自然言語ビデオ記述(NLVD)は最近、コンピュータビジョン、自然言語処理、マルチメディア、自律型ロボティクスのコミュニティに強い関心を集めている。
本研究は, 視覚入力の役割に関する広範な研究を行い, 総合的なNLP性能について評価した。
t-SNEをベースとした解析を行い,検討した変換が全体的視覚データ分布に与える影響を評価する。
論文 参考訳(メタデータ) (2021-02-09T19:00:35Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。