Fugu-MT 論文翻訳(概要): Marrying Dialogue Systems with Data Visualization: Interactive Data Visualization Generation from Natural Language Conversations

論文の概要: Marrying Dialogue Systems with Data Visualization: Interactive Data Visualization Generation from Natural Language Conversations

arxiv url: http://arxiv.org/abs/2307.16013v1
Date: Sat, 29 Jul 2023 15:50:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 18:05:23.943317
Title: Marrying Dialogue Systems with Data Visualization: Interactive Data Visualization Generation from Natural Language Conversations
Title（参考訳）: データ可視化による対話システム間結婚:自然言語対話による対話型データ可視化
Authors: Yuanfeng Song and Xuefang Zhao and Raymond Chi-Wing Wong
Abstract要約: 本稿では,対話型テキスト・トゥ・ビジュアル化のためのCoVisというタスクを提案する。ユーザとシステム間の一連のインタラクションを通じてDVを構築することを目的としている。本稿では,これらのDV関連クエリに応答するマルチモーダルニューラルネットワークMMCoVisNetを提案する。
参考スコア（独自算出の注目度）: 20.731675018911645
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data visualization (DV) has become the prevailing tool in the market due to its effectiveness into illustrating insights in vast amounts of data. To lower the barrier of using DVs, automatic DV tasks, such as natural language question (NLQ) to visualization translation (formally called text-to-vis), have been investigated in the research community. However, text-to-vis assumes the NLQ to be well-organized and expressed in a single sentence. However, in real-world settings, complex DV is needed through consecutive exchanges between the DV system and the users. In this paper, we propose a new task named CoVis, short for Conversational text-to-Visualization, aiming at constructing DVs through a series of interactions between users and the system. Since it is the task which has not been studied in the literature, we first build a benchmark dataset named Dial-NVBench, including dialogue sessions with a sequence of queries from a user and responses from the system. Then, we propose a multi-modal neural network named MMCoVisNet to answer these DV-related queries. In particular, MMCoVisNet first fully understands the dialogue context and determines the corresponding responses. Then, it uses adaptive decoders to provide the appropriate replies: (i) a straightforward text decoder is used to produce general responses, (ii) an SQL-form decoder is applied to synthesize data querying responses, and (iii) a DV-form decoder tries to construct the appropriate DVs. We comparatively evaluate MMCoVisNet with other baselines over our proposed benchmark dataset. Experimental results validate that MMCoVisNet performs better than existing baselines and achieves a state-of-the-art performance.
Abstract（参考訳）: データビジュアライゼーション(DV)は、大量のデータに対する洞察を実証する効果により、市場で広く普及しているツールとなっている。 DVの使用障壁を低減するため、自然言語質問(NLQ)や可視化翻訳(正式にはtext-to-vis)といった自動DVタスクが研究コミュニティで研究されている。しかし、テキスト・トゥ・ビジュはNLQをうまく整理し、単一の文で表すと仮定する。しかし、現実世界では、DVシステムとユーザ間の連続的な交換によって複雑なDVが必要である。本稿では,ユーザとシステム間の一連のインタラクションを通じてDVを構築することを目的とした,会話型テキスト可視化のためのCoVisというタスクを提案する。文献では研究されていないタスクであるため、まずダイアル・NVBenchというベンチマークデータセットを構築し、ユーザからのクエリのシーケンスとシステムからの応答の対話セッションを含む。そこで我々は,これらのDV関連クエリに応答するマルチモーダルニューラルネットワークMMCoVisNetを提案する。特にMMCoVisNetはまず対話コンテキストを完全に理解し、対応する応答を決定する。そして、アダプティブデコーダを使用して適切な応答を提供します。 (i)一般的な応答を生成するために直接テキストデコーダが使用される。 (ii)SQL形式のデコーダを適用してデータクエリ応答を合成し、 (iii) DV型デコーダは適切なDVを構築しようとする。提案するベンチマークデータセットに対するmmcovisnetと他のベースラインの比較評価を行った。実験の結果,MMCoVisNetは既存のベースラインよりも優れた性能を示し,最先端の性能を実現している。

関連論文リスト

QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文参考訳（メタデータ） (2025-04-03T18:47:16Z)
QueryAdapter: Rapid Adaptation of Vision-Language Models in Response to Natural Language Queries [2.306164598536725]
本稿では,学習済みのVLMを自然言語クエリに迅速に適応する新しいフレームワークを提案する。 VLMの機能をクエリに関連するセマンティッククラスと整合させるために、前回のデプロイメントで収集された不正なデータを使用します。また、実際のデータを適応するために使用する場合、クエリと無関係なオブジェクトをどのように扱うべきかについても検討する。
論文参考訳（メタデータ） (2025-02-26T01:07:28Z)
Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval [26.585985828583304]
本稿では,マルチモーダルクエリを理解可能なテキスト検索機能を実現するために,エンドツーエンドのマルチモーダル検索システムRet-XKnowを提案する。マルチモーダルインタラクションを効果的に学習するために、視覚対話データセットから構築したVisual Dialogue-to-Retrievalデータセットも導入する。提案手法は,ゼロショット設定における検索性能を大幅に向上するだけでなく,微調整シナリオの大幅な改善も達成できることを示す。
論文参考訳（メタデータ） (2024-11-13T04:32:58Z)
DataVisT5: A Pre-trained Language Model for Jointly Understanding Text and Data Visualization [21.37997939694444]
データビジュアライゼーション(DV)は,ビッグデータの背後にある洞察を伝える上で,効率を向上させるための基本的かつ前提的ツールである。その可能性にもかかわらず、T5やBERTのような事前訓練された言語モデル(PLM)をDVに適用することは、クロスモーダル情報を扱う上でのコストと課題によって制限されている。 textbfDataVisT5はDV用に調整された新しいPLMで、T5アーキテクチャを多目的学習とマルチタスクファインチューニングのハイブリッド戦略によって拡張する。
論文参考訳（メタデータ） (2024-08-14T09:20:17Z)
GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。 GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
Resolving References in Visually-Grounded Dialogue via Text Generation [3.8673630752805446]
視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。本稿では,言語文脈における中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。
論文参考訳（メタデータ） (2023-09-23T17:07:54Z)
Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。 3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文参考訳（メタデータ） (2023-09-01T13:06:50Z)
Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。 VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文参考訳（メタデータ） (2022-06-16T03:18:42Z)
Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。 AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文参考訳（メタデータ） (2022-05-11T19:14:39Z)
Text is NOT Enough: Integrating Visual Impressions intoOpen-domain Dialogue Generation [14.104415187890773]
自然言語処理(NLP)におけるオープンドメイン対話生成は、デフォルトでは純粋言語タスクである。ビジュアルインプレッション (VIs) と呼ばれる隠された画像は、対話理解を強化するためにテキストのみのデータから探索することができる。我々は、純粋言語対話データセットに基づくVIを明示的に構築するフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-13T08:57:13Z)
The Role of the Input in Natural Language Video Description [60.03448250024277]
自然言語ビデオ記述(NLVD)は最近、コンピュータビジョン、自然言語処理、マルチメディア、自律型ロボティクスのコミュニティに強い関心を集めている。本研究は, 視覚入力の役割に関する広範な研究を行い, 総合的なNLP性能について評価した。 t-SNEをベースとした解析を行い,検討した変換が全体的視覚データ分布に与える影響を評価する。
論文参考訳（メタデータ） (2021-02-09T19:00:35Z)
Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文参考訳（メタデータ） (2020-12-14T10:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。