論文の概要: Explainable Multi-Modal Data Exploration in Natural Language via LLM Agent
- arxiv url: http://arxiv.org/abs/2412.18428v1
- Date: Tue, 24 Dec 2024 13:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:33.219125
- Title: Explainable Multi-Modal Data Exploration in Natural Language via LLM Agent
- Title(参考訳): LLMエージェントによる自然言語における説明可能なマルチモーダルデータ探索
- Authors: Farhad Nooralahzadeh, Yi Zhang, Jonathan Furst, Kurt Stockinger,
- Abstract要約: XMODEは自然言語で説明可能なマルチモーダルデータ探索を可能にするシステムである。
XMODEは、マルチモーダル情報システムの探索を可能にする現実世界のユースケースにインスパイアされている。
- 参考スコア(独自算出の注目度): 6.147666891384964
- License:
- Abstract: International enterprises, organizations, or hospitals collect large amounts of multi-modal data stored in databases, text documents, images, and videos. While there has been recent progress in the separate fields of multi-modal data exploration as well as in database systems that automatically translate natural language questions to database query languages, the research challenge of querying database systems combined with other unstructured modalities such as images in natural language is widely unexplored. In this paper, we propose XMODE - a system that enables explainable, multi-modal data exploration in natural language. Our approach is based on the following research contributions: (1) Our system is inspired by a real-world use case that enables users to explore multi-modal information systems. (2) XMODE leverages a LLM-based agentic AI framework to decompose a natural language question into subtasks such as text-to-SQL generation and image analysis. (3) Experimental results on multi-modal datasets over relational data and images demonstrate that our system outperforms state-of-the-art multi-modal exploration systems, excelling not only in accuracy but also in various performance metrics such as query latency, API costs, planning efficiency, and explanation quality, thanks to the more effective utilization of the reasoning capabilities of LLMs.
- Abstract(参考訳): 国際企業、組織、病院は、データベース、テキスト文書、画像、ビデオに格納された大量のマルチモーダルデータを収集する。
自然言語質問をデータベースクエリ言語に自動翻訳するデータベースシステムやマルチモーダルデータ探索の分野は近年進歩しているが、自然言語における画像のような非構造化のモダリティと組み合わせてデータベースシステムをクエリする研究課題は、広く研究されていない。
本稿では,自然言語で説明可能なマルチモーダルデータ探索を可能にするシステムであるXMODEを提案する。
1)本システムは,ユーザがマルチモーダル情報システムを探索できる実世界のユースケースにインスパイアされている。
2) XMODEはLLMベースのエージェントAIフレームワークを活用し,自然言語質問をテキストからSQL生成や画像解析などのサブタスクに分解する。
3)リレーショナルデータや画像を用いたマルチモーダルデータセットの実験結果から,我々のシステムは最先端のマルチモーダル探索システムより優れており,クエリ待ち時間,APIコスト,計画効率,説明品質などの様々なパフォーマンス指標にも優れており,LCMの推論能力の有効利用が期待できる。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation [76.76046657162306]
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
大規模言語モデル(LLM)はテキスト・ツー・タスクの新しいパラダイムとして登場した。
論文 参考訳(メタデータ) (2023-08-29T14:59:54Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Querying Large Language Models with SQL [16.383179496709737]
多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。
事前訓練されたLarge Language Models (LLMs) の台頭に伴い、大量のテキストコーパスから抽出された情報を保存および使用するための効果的なソリューションが現在存在する。
本稿では,従来のデータベースアーキテクチャに基づくプロトタイプであるGaloisについて紹介する。
論文 参考訳(メタデータ) (2023-04-02T06:58:14Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - MLM: A Benchmark Dataset for Multitask Learning with Multiple Languages
and Modalities [14.605385352491904]
データセットは、Webやデジタルアーカイブで遭遇したデータ上で複数のタスクを実行するアプリケーションを構築する研究者や開発者のために設計されている。
第2版では、EU加盟国の重み付けされたサンプルとともに、データの地理的表現サブセットを提供する。
論文 参考訳(メタデータ) (2020-08-14T14:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。