論文の概要: A Multimodal Conversational Agent for Tabular Data Analysis
- arxiv url: http://arxiv.org/abs/2511.18405v1
- Date: Sun, 23 Nov 2025 11:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.825084
- Title: A Multimodal Conversational Agent for Tabular Data Analysis
- Title(参考訳): 語彙データ分析のための多モーダル対話エージェント
- Authors: Mohammad Nour Al Awad, Sergey Ivanov, Olga Tikhonova, Ivan Khodnenko,
- Abstract要約: 大規模言語モデル(LLM)は、音声対話を含むユーザとの対話において、ハイパフォーマンスを維持しながら、データ分析、可視化、解釈を扱うことで、情報処理を再構築することができる。
直感的データ探索のためのマルチモーダルLLM駆動型対話エージェントTalk2Dataを提案する。
このシステムでは、ユーザーは音声やテキストでデータセットをクエリし、プロット、テーブル、統計、音声による説明などの回答を受け取ることができる。
- 参考スコア(独自算出の注目度): 0.2211620227346065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can reshape information processing by handling data analysis, visualization, and interpretation in an interactive, context-aware dialogue with users, including voice interaction, while maintaining high performance. In this article, we present Talk2Data, a multimodal LLM-driven conversational agent for intuitive data exploration. The system lets users query datasets with voice or text instructions and receive answers as plots, tables, statistics, or spoken explanations. Built on LLMs, the suggested design combines OpenAI Whisper automatic speech recognition (ASR) system, Qwen-coder code generation LLM/model, custom sandboxed execution tools, and Coqui library for text-to-speech (TTS) within an agentic orchestration loop. Unlike text-only analysis tools, it adapts responses across modalities and supports multi-turn dialogues grounded in dataset context. In an evaluation of 48 tasks on three datasets, our prototype achieved 95.8% accuracy with model-only generation time under 1.7 seconds (excluding ASR and execution time). A comparison across five LLM sizes (1.5B-32B) revealed accuracy-latency-cost trade-offs, with a 7B model providing the best balance for interactive use. By routing between conversation with user and code execution, constrained to a transparent sandbox, with simultaneously grounding prompts in schema-level context, the Talk2Data agent reliably retrieves actionable insights from tables while making computations verifiable. In the article, except for the Talk2Data agent itself, we discuss implications for human-data interaction, trust in LLM-driven analytics, and future extensions toward large-scale multimodal assistants.
- Abstract(参考訳): 大規模言語モデル(LLM)は、音声対話を含むユーザとの対話において、ハイパフォーマンスを維持しながら、データ分析、可視化、解釈を扱うことで、情報処理を再構築することができる。
本稿では,マルチモーダル LLM による直感的データ探索のための対話エージェントである Talk2Data について述べる。
このシステムでは、ユーザーは音声やテキストでデータセットをクエリし、プロット、テーブル、統計、音声による説明などの回答を受け取ることができる。
LLM上に構築されたこの設計は、OpenAI Whisper自動音声認識(ASR)システム、Qwenコーダコード生成LLM/モデル、カスタムサンドボックス実行ツール、エージェントオーケストレーションループ内のテキスト音声(TTS)のためのCoquiライブラリを組み合わせたものである。
テキストのみの分析ツールとは異なり、モダリティを越えてレスポンスを適応し、データセットコンテキストに基礎を置くマルチターンダイアログをサポートする。
3つのデータセットに対する48のタスクの評価において、プロトタイプは95.8%の精度で、1.7秒以下のモデルのみの生成時間(ASRと実行時間を除く)を達成した。
5つのLLMサイズ(1.5B-32B)を比較すると、精度と遅延コストのトレードオフが明らかとなり、7Bモデルがインタラクティブな使用に最適なバランスを与えた。
ユーザとコード実行の間の会話をルーティングすることで、透過的なサンドボックスに制約され、同時にスキーマレベルのコンテキストでプロンプトをグラウンディングすることで、Talk2Dataエージェントは、計算を検証しながらテーブルからアクション可能な洞察を確実に取得する。
本稿では、Talk2Dataエージェント自体を除き、人間とデータ間の相互作用、LCM駆動分析への信頼、大規模マルチモーダルアシスタントへの将来の拡張について論じる。
関連論文リスト
- DocTalk: Scalable Graph-based Dialogue Synthesis for Enhancing LLM Conversational Capabilities [13.615473441588009]
本稿では,既存のテキストコーパスから会話データを合成することで,この相違に対処する新しいアプローチを提案する。
パイプラインをWikipediaの記事に適用し、730万以上の会話からなる多ターン事前学習対話コーパスであるDocTalkをキュレートします。
事前学習中にDocTalkを組み込むことで、ベースパフォーマンスを損なうことなく、コンテキスト記憶と理解が最大40%向上することを示す。
論文 参考訳(メタデータ) (2025-07-08T07:52:12Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training [33.57497419019826]
アクションベースのコントラスト自己学習は、多ターン会話モデリングにおけるデータ効率のよい対話ポリシー学習を可能にする。
動作ラベルがない場合でも、データ効率のよいチューニングシナリオにおいてACTの有効性を実証する。
また,会話におけるあいまいさを暗黙的に認識し,説明できるかどうかを調べることで,LLMが会話エージェントとして機能する能力を評価することを提案する。
論文 参考訳(メタデータ) (2024-05-31T22:44:48Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Efficient Data Generation for Source-grounded Information-seeking Dialogs: A Use Case for Meeting Transcripts [10.829227084902428]
本稿では,Large Language Models (LLMs) を用いたソースグラウンド情報検索ダイアログにおけるデータ生成の実現可能性と有効性について検討する。
私たちはMISeD -- Meeting Information Seeking Dialogsデータセットを作ります。
MISeDの微調整は、完全な手動データによる微調整に匹敵する応答生成品質を提供すると同時に、属性品質を改善し、時間と労力を削減する。
論文 参考訳(メタデータ) (2024-05-02T09:35:06Z) - Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries [48.243879779374836]
LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。
従来は検索キーやクエリとして生の対話コンテキストを使用していた。
会話のテキスト要約に基づいて会話検索を行う。
LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。
論文 参考訳(メタデータ) (2024-02-20T14:31:17Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Simulated Chats for Building Dialog Systems: Learning to Generate
Conversations from Instructions [14.47025580681492]
本稿では、事前訓練された言語モデルであるGPT2を用いて、ユーザボットとエージェントボットを作成することによって、群衆労働者間のインタラクションをシミュレートするデータ生成戦略を提案する。
シミュレーションデータを使用することで、2つの公開データセット上での低リソース設定を大幅に改善できることを実証する。
論文 参考訳(メタデータ) (2020-10-20T12:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。