論文の概要: MuDoC: An Interactive Multimodal Document-grounded Conversational AI System
- arxiv url: http://arxiv.org/abs/2502.09843v1
- Date: Fri, 14 Feb 2025 01:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:06:42.710718
- Title: MuDoC: An Interactive Multimodal Document-grounded Conversational AI System
- Title(参考訳): MuDoC: 対話型マルチモーダル文書地下会話型AIシステム
- Authors: Karan Taneja, Ashok K. Goel,
- Abstract要約: 長いドキュメントと対話するマルチモーダルなドキュメントグラウンドAIシステムを構築することは、依然として課題である。
GPT-4oに基づく対話型対話型AIエージェント「MuDoC」を提案する。
- 参考スコア(独自算出の注目度): 4.7191037525744735
- License:
- Abstract: Multimodal AI is an important step towards building effective tools to leverage multiple modalities in human-AI communication. Building a multimodal document-grounded AI system to interact with long documents remains a challenge. Our work aims to fill the research gap of directly leveraging grounded visuals from documents alongside textual content in documents for response generation. We present an interactive conversational AI agent 'MuDoC' based on GPT-4o to generate document-grounded responses with interleaved text and figures. MuDoC's intelligent textbook interface promotes trustworthiness and enables verification of system responses by allowing instant navigation to source text and figures in the documents. We also discuss qualitative observations based on MuDoC responses highlighting its strengths and limitations.
- Abstract(参考訳): マルチモーダルAIは、人間とAIのコミュニケーションにおいて、複数のモダリティを活用する効果的なツールを構築するための重要なステップである。
長いドキュメントと対話するマルチモーダルなドキュメントグラウンドAIシステムを構築することは、依然として課題である。
本研究の目的は,文書中のテキストコンテンツと並行して,文書からの接地された視覚を直接活用する研究のギャップを埋めることである。
GPT-4oに基づく対話型対話型AIエージェント「MuDoC」を提案する。
MuDoCのインテリジェントな教科書インタフェースは、信頼性を促進し、文書中のテキストや数字を即座にナビゲーションすることで、システム応答の検証を可能にする。
また, MuDoC 応答に基づく定性的観察についても考察し, その強度と限界について考察した。
関連論文リスト
- VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Documentation Practices of Artificial Intelligence [0.5937476291232799]
我々は、一般的な傾向、永続的な問題、およびドキュメントに影響を与える要因の相互作用の概要について説明する。
スコープ,ターゲットオーディエンス,マルチモーダリティのサポート,自動化レベルといった重要な特徴について検討した結果,より包括的でエンゲージメント,自動化されたドキュメントへのシフトが浮き彫りになった。
論文 参考訳(メタデータ) (2024-06-26T08:33:52Z) - KamerRaad: Enhancing Information Retrieval in Belgian National Politics through Hierarchical Summarization and Conversational Interfaces [55.00702535694059]
KamerRaadは、大きな言語モデルを活用するAIツールで、市民がベルギーの政治情報と対話的に関わるのを助ける。
このツールは、議会の手続きから重要な抜粋を抽出し、簡潔に要約し、次いで生成AIに基づくインタラクションの可能性を示す。
論文 参考訳(メタデータ) (2024-04-22T15:01:39Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Enabling Harmonious Human-Machine Interaction with Visual-Context
Augmented Dialogue System: A Review [40.49926141538684]
Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。
VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
論文 参考訳(メタデータ) (2022-07-02T09:31:37Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - DIALKI: Knowledge Identification in Conversational Systems through
Dialogue-Document Contextualization [41.21012318918167]
本稿では,文書構造を利用して対話型文節エンコーディングを実現する知識識別モデルを提案する。
本稿では,2つの文書的会話データセット上でのモデルの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-10T05:40:37Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - Exploring Recurrent, Memory and Attention Based Architectures for
Scoring Interactional Aspects of Human-Machine Text Dialog [9.209192502526285]
本稿は、複数のニューラルアーキテクチャを調べるために、この方向の以前の研究に基づいている。
我々は,クラウドベースの対話システムと対話する人間の学習者からテキストダイアログの対話データベース上で実験を行う。
複数のアーキテクチャの融合は、専門家間の合意に比較して、我々の自動スコアリングタスクにおいて有能に機能することがわかった。
論文 参考訳(メタデータ) (2020-05-20T03:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。