論文の概要: Can AI agents understand spoken conversations about data visualizations in online meetings?
- arxiv url: http://arxiv.org/abs/2510.00245v1
- Date: Tue, 30 Sep 2025 20:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.241431
- Title: Can AI agents understand spoken conversations about data visualizations in online meetings?
- Title(参考訳): AIエージェントはオンラインミーティングでデータ視覚化に関する会話を理解できるか?
- Authors: Rizul Sharma, Tianyu Jiang, Seokki Lee, Jillian Aurisano,
- Abstract要約: 本稿では、オンライン会議シナリオにおけるデータ可視化に関する音声会話に対するAIエージェントの理解を評価する。
本稿では、AIエージェントによるデータに関する会話の理解を診断するための二重軸テストフレームワークを提案する。
評価手法を用いて,オンライン会議におけるビジュアライゼーションの議論の理解において,テキストのみの入力モダリティが最高のパフォーマンス(96%)を達成した。
- 参考スコア(独自算出の注目度): 3.903003612836178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this short paper, we present work evaluating an AI agent's understanding of spoken conversations about data visualizations in an online meeting scenario. There is growing interest in the development of AI-assistants that support meetings, such as by providing assistance with tasks or summarizing a discussion. The quality of this support depends on a model that understands the conversational dialogue. To evaluate this understanding, we introduce a dual-axis testing framework for diagnosing the AI agent's comprehension of spoken conversations about data. Using this framework, we designed a series of tests to evaluate understanding of a novel corpus of 72 spoken conversational dialogues about data visualizations. We examine diverse pipelines and model architectures, LLM vs VLM, and diverse input formats for visualizations (the chart image, its underlying source code, or a hybrid of both) to see how this affects model performance on our tests. Using our evaluation methods, we found that text-only input modalities achieved the best performance (96%) in understanding discussions of visualizations in online meetings.
- Abstract(参考訳): 本稿では、オンライン会議シナリオにおけるデータ可視化に関する音声会話に対するAIエージェントの理解を評価する作業について述べる。
タスクの支援の提供や議論の要約など、ミーティングを支援するAIアシスタントの開発への関心が高まっている。
このサポートの質は会話の対話を理解するモデルに依存する。
この理解を評価するために、AIエージェントによるデータに関する会話の理解を診断するための二重軸テストフレームワークを導入する。
このフレームワークを用いて、データ視覚化に関する72の会話対話からなる新しいコーパスの理解を評価するための一連の試験を設計した。
様々なパイプラインやモデルアーキテクチャ、LLM対VLM、可視化のための多様な入力フォーマット(チャート画像、基礎となるソースコード、両方のハイブリッド)を調べ、これがテストにおけるモデルパフォーマンスにどのように影響するかを確認します。
評価手法を用いて,オンライン会議におけるビジュアライゼーションの議論の理解において,テキストのみの入力モダリティが最高のパフォーマンス(96%)を達成した。
関連論文リスト
- Mic Drop or Data Flop? Evaluating the Fitness for Purpose of AI Voice Interviewers for Data Collection within Quantitative & Qualitative Research Contexts [7.938565669618949]
Transformer-based Large Language Models (LLMs) は、音声ベースの調査をリアルタイムで実施できる「AIインタビュアー」の道を開いた。
我々は,AIインタビュアーと,2次元にわたる現在の対話型音声応答(Interactive Voice Response, IVR)システムの性能を評価する。
論文 参考訳(メタデータ) (2025-09-01T22:44:57Z) - Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence [11.217656140423207]
ASACは、1つ以上の候補者と対話する環境でL2話者の全体的な発話能力を評価することを目的としている。
本稿では,広い応答間相互作用とニュアンス付き意味情報の両方を適切に組み込んだ階層グラフモデルを提案する。
NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法が予測精度を大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-11T07:24:07Z) - Synthesizing Conversations from Unlabeled Documents using Automatic Response Segmentation [13.322409682814827]
我々は,会話型質問応答システムにおける不適切でコストのかかるデータトレーニングの課題に対処する。
本稿では,ロバストなダイアログ合成手法を提案する。
文境界におけるセグメンテーションを使わずに,ダイアログタスクのためのデータのセグメンテーションを学習する。
論文 参考訳(メタデータ) (2024-06-06T02:52:45Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Exploring Recurrent, Memory and Attention Based Architectures for
Scoring Interactional Aspects of Human-Machine Text Dialog [9.209192502526285]
本稿は、複数のニューラルアーキテクチャを調べるために、この方向の以前の研究に基づいている。
我々は,クラウドベースの対話システムと対話する人間の学習者からテキストダイアログの対話データベース上で実験を行う。
複数のアーキテクチャの融合は、専門家間の合意に比較して、我々の自動スコアリングタスクにおいて有能に機能することがわかった。
論文 参考訳(メタデータ) (2020-05-20T03:23:00Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。