論文の概要: Marrying Dialogue Systems with Data Visualization: Interactive Data
Visualization Generation from Natural Language Conversations
- arxiv url: http://arxiv.org/abs/2307.16013v1
- Date: Sat, 29 Jul 2023 15:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 18:05:23.943317
- Title: Marrying Dialogue Systems with Data Visualization: Interactive Data
Visualization Generation from Natural Language Conversations
- Title(参考訳): データ可視化による対話システム間結婚:自然言語対話による対話型データ可視化
- Authors: Yuanfeng Song and Xuefang Zhao and Raymond Chi-Wing Wong
- Abstract要約: 本稿では,対話型テキスト・トゥ・ビジュアル化のためのCoVisというタスクを提案する。
ユーザとシステム間の一連のインタラクションを通じてDVを構築することを目的としている。
本稿では,これらのDV関連クエリに応答するマルチモーダルニューラルネットワークMMCoVisNetを提案する。
- 参考スコア(独自算出の注目度): 20.731675018911645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data visualization (DV) has become the prevailing tool in the market due to
its effectiveness into illustrating insights in vast amounts of data. To lower
the barrier of using DVs, automatic DV tasks, such as natural language question
(NLQ) to visualization translation (formally called text-to-vis), have been
investigated in the research community. However, text-to-vis assumes the NLQ to
be well-organized and expressed in a single sentence. However, in real-world
settings, complex DV is needed through consecutive exchanges between the DV
system and the users. In this paper, we propose a new task named CoVis, short
for Conversational text-to-Visualization, aiming at constructing DVs through a
series of interactions between users and the system. Since it is the task which
has not been studied in the literature, we first build a benchmark dataset
named Dial-NVBench, including dialogue sessions with a sequence of queries from
a user and responses from the system. Then, we propose a multi-modal neural
network named MMCoVisNet to answer these DV-related queries. In particular,
MMCoVisNet first fully understands the dialogue context and determines the
corresponding responses. Then, it uses adaptive decoders to provide the
appropriate replies: (i) a straightforward text decoder is used to produce
general responses, (ii) an SQL-form decoder is applied to synthesize data
querying responses, and (iii) a DV-form decoder tries to construct the
appropriate DVs. We comparatively evaluate MMCoVisNet with other baselines over
our proposed benchmark dataset. Experimental results validate that MMCoVisNet
performs better than existing baselines and achieves a state-of-the-art
performance.
- Abstract(参考訳): データビジュアライゼーション(DV)は、大量のデータに対する洞察を実証する効果により、市場で広く普及しているツールとなっている。
DVの使用障壁を低減するため、自然言語質問(NLQ)や可視化翻訳(正式にはtext-to-vis)といった自動DVタスクが研究コミュニティで研究されている。
しかし、テキスト・トゥ・ビジュはNLQをうまく整理し、単一の文で表すと仮定する。
しかし、現実世界では、DVシステムとユーザ間の連続的な交換によって複雑なDVが必要である。
本稿では,ユーザとシステム間の一連のインタラクションを通じてDVを構築することを目的とした,会話型テキスト可視化のためのCoVisというタスクを提案する。
文献では研究されていないタスクであるため、まずダイアル・NVBenchというベンチマークデータセットを構築し、ユーザからのクエリのシーケンスとシステムからの応答の対話セッションを含む。
そこで我々は,これらのDV関連クエリに応答するマルチモーダルニューラルネットワークMMCoVisNetを提案する。
特にMMCoVisNetはまず対話コンテキストを完全に理解し、対応する応答を決定する。
そして、アダプティブデコーダを使用して適切な応答を提供します。
(i)一般的な応答を生成するために直接テキストデコーダが使用される。
(ii)SQL形式のデコーダを適用してデータクエリ応答を合成し、
(iii) DV型デコーダは適切なDVを構築しようとする。
提案するベンチマークデータセットに対するmmcovisnetと他のベースラインの比較評価を行った。
実験の結果,MMCoVisNetは既存のベースラインよりも優れた性能を示し,最先端の性能を実現している。
関連論文リスト
- Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - Resolving References in Visually-Grounded Dialogue via Text Generation [3.8673630752805446]
視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。
本稿では,言語文脈における中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。
次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。
論文 参考訳(メタデータ) (2023-09-23T17:07:54Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-11T19:14:39Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z) - Text is NOT Enough: Integrating Visual Impressions intoOpen-domain
Dialogue Generation [14.104415187890773]
自然言語処理(NLP)におけるオープンドメイン対話生成は、デフォルトでは純粋言語タスクである。
ビジュアルインプレッション (VIs) と呼ばれる隠された画像は、対話理解を強化するためにテキストのみのデータから探索することができる。
我々は、純粋言語対話データセットに基づくVIを明示的に構築するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-13T08:57:13Z) - The Role of the Input in Natural Language Video Description [60.03448250024277]
自然言語ビデオ記述(NLVD)は最近、コンピュータビジョン、自然言語処理、マルチメディア、自律型ロボティクスのコミュニティに強い関心を集めている。
本研究は, 視覚入力の役割に関する広範な研究を行い, 総合的なNLP性能について評価した。
t-SNEをベースとした解析を行い,検討した変換が全体的視覚データ分布に与える影響を評価する。
論文 参考訳(メタデータ) (2021-02-09T19:00:35Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - DAM: Deliberation, Abandon and Memory Networks for Generating Detailed
and Non-repetitive Responses in Visual Dialogue [29.330198609132207]
高品質な応答を生成するための新しい生成復号アーキテクチャを提案する。
このアーキテクチャでは、単語生成は一連の注意に基づく情報選択ステップに分解される。
応答は、意味的正確性を維持しながら、より詳細で反復的でない記述を含む。
論文 参考訳(メタデータ) (2020-07-07T09:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。