論文の概要: CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems
- arxiv url: http://arxiv.org/abs/2406.00583v1
- Date: Sun, 2 Jun 2024 01:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 06:15:52.102407
- Title: CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems
- Title(参考訳): CMDBench: 複合AIシステムにおける粗大なマルチモーダルデータ発見のためのベンチマーク
- Authors: Yanlin Feng, Sajjadur Rahman, Aaron Feng, Vincent Chen, Eser Kandogan,
- Abstract要約: 知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
- 参考スコア(独自算出の注目度): 10.71630696651595
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Compound AI systems (CASs) that employ LLMs as agents to accomplish knowledge-intensive tasks via interactions with tools and data retrievers have garnered significant interest within database and AI communities. While these systems have the potential to supplement typical analysis workflows of data analysts in enterprise data platforms, unfortunately, CASs are subject to the same data discovery challenges that analysts have encountered over the years -- silos of multimodal data sources, created across teams and departments within an organization, make it difficult to identify appropriate data sources for accomplishing the task at hand. Existing data discovery benchmarks do not model such multimodality and multiplicity of data sources. Moreover, benchmarks of CASs prioritize only evaluating end-to-end task performance. To catalyze research on evaluating the data discovery performance of multimodal data retrievers in CASs within a real-world setting, we propose CMDBench, a benchmark modeling the complexity of enterprise data platforms. We adapt existing datasets and benchmarks in open-domain -- from question answering and complex reasoning tasks to natural language querying over structured data -- to evaluate coarse- and fine-grained data discovery and task execution performance. Our experiments reveal the impact of data retriever design on downstream task performance -- a 46% drop in task accuracy on average -- across various modalities, data sources, and task difficulty. The results indicate the need to develop optimization strategies to identify appropriate LLM agents and retrievers for efficient execution of CASs over enterprise data.
- Abstract(参考訳): LLMをエージェントとして使用して、ツールやデータレトリバーとのインタラクションを通じて知識集約的なタスクを実現する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
これらのシステムは、エンタープライズデータプラットフォームのデータアナリストの典型的な分析ワークフローを補完する可能性があるが、残念ながら、CASは、アナリストが長年にわたって直面してきたのと同じデータ発見の課題に直面する。
既存のデータ発見ベンチマークでは、そのようなマルチモーダル性とデータソースの多重性をモデル化していない。
さらに、CASのベンチマークは、エンドツーエンドのタスクパフォーマンスの評価のみを優先する。
実世界におけるCASにおけるマルチモーダルデータ検索器のデータ発見性能を評価するために,エンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
質問応答や複雑な推論タスクから構造化データに対する自然言語クエリに至るまで、既存のデータセットとベンチマークをオープンドメインに適応し、粗大できめ細かいデータ発見とタスク実行のパフォーマンスを評価します。
実験の結果、データ検索設計がダウンストリームタスクのパフォーマンス(平均46%のタスク精度低下)に与える影響を、様々なモダリティ、データソース、タスクの難易度で明らかにした。
その結果,企業データ上でCASを効率的に実行するためには,適切なLCMエージェントとレトリバーを識別するための最適化戦略を開発する必要があることが示唆された。
関連論文リスト
- Metadata-based Data Exploration with Retrieval-Augmented Generation for Large Language Models [3.7685718201378746]
本研究では、メタデータに基づくデータ発見を強化するために、レトリーバル拡張生成(RAG)という形式を用いた新しいデータ探索アーキテクチャを提案する。
提案フレームワークは異種データソース間の意味的類似性を評価するための新しい手法を提供する。
論文 参考訳(メタデータ) (2024-10-05T17:11:37Z) - Data Proportion Detection for Optimized Data Management for Large Language Models [32.62631669919273]
我々は,事前学習データの割合の自動推定を可能にする新しいトピック,textitdata proportion Detectionを導入する。
データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T04:30:32Z) - DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - Distributed In-Context Learning under Non-IID Among Clients [38.868357555845435]
In-context Learning (ICL)は、クエリに関連する一連のデータポイントを取得することで、数ショット適応のための有望なソリューションを提供する。
本稿では,テストクエリが非IID性のため,クライアント間で異なる好みを持つことを示す。
データ利用予算が存在する場合、分散非IID ICL問題に対処するための新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-07-31T20:06:25Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - GAN-based Tabular Data Generator for Constructing Synopsis in
Approximate Query Processing: Challenges and Solutions [0.0]
Approximate Query Processing (AQP) は、データ(シノプシス)の要約に基づいて、集約されたクエリに近似した回答を提供する技術である。
本研究では,AQPを用いて合成構築を行うことのできる表データ生成におけるGAN(Generative Adversarial Networks)の新規活用について検討する。
以上の結果から,データ駆動システムにおけるAQPの効率と有効性に変化をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-12-18T05:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。