論文の概要: DataMosaic: Explainable and Verifiable Multi-Modal Data Analytics through Extract-Reason-Verify
- arxiv url: http://arxiv.org/abs/2504.10036v1
- Date: Mon, 14 Apr 2025 09:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 19:30:14.324959
- Title: DataMosaic: Explainable and Verifiable Multi-Modal Data Analytics through Extract-Reason-Verify
- Title(参考訳): DataMosaic: Extract-Reason-Verifyによる説明可能で検証可能なマルチモーダルデータ分析
- Authors: Zhengxuan Zhang, Zhuowen Liang, Yin Wu, Teng Lin, Yuyu Luo, Nan Tang,
- Abstract要約: 大規模言語モデル(LLM)はデータ分析を変革しているが、その普及は2つの限界によって妨げられている。
それらは説明不可能(不明確な推論プロセス)であり、検証不可能(幻覚や未確認の誤りが原因である)である。
データモザイク(DataMosaic)は、LCMを利用した分析を説明可能かつ検証可能とするために設計されたフレームワークである。
- 参考スコア(独自算出の注目度): 11.10351765834947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are transforming data analytics, but their widespread adoption is hindered by two critical limitations: they are not explainable (opaque reasoning processes) and not verifiable (prone to hallucinations and unchecked errors). While retrieval-augmented generation (RAG) improves accuracy by grounding LLMs in external data, it fails to address the core challenges of trustworthy analytics - especially when processing noisy, inconsistent, or multi-modal data (for example, text, tables, images). We propose DataMosaic, a framework designed to make LLM-powered analytics both explainable and verifiable. By dynamically extracting task-specific structures (for example, tables, graphs, trees) from raw data, DataMosaic provides transparent, step-by-step reasoning traces and enables validation of intermediate results. Built on a multi-agent framework, DataMosaic orchestrates self-adaptive agents that align with downstream task requirements, enhancing consistency, completeness, and privacy. Through this approach, DataMosaic not only tackles the limitations of current LLM-powered analytics systems but also lays the groundwork for a new paradigm of grounded, accurate, and explainable multi-modal data analytics.
- Abstract(参考訳): 大規模言語モデル(LLM)はデータ分析を変革しているが、その普及には2つの重要な制限がある。
検索強化生成(RAG)は、外部データにLLMを接地することで精度を向上させるが、特にノイズ、矛盾、マルチモーダルデータ(テキスト、テーブル、画像など)を処理する場合、信頼できる分析のコア課題に対処できない。
データモザイク(DataMosaic)は、LCMを利用した分析を説明可能かつ検証可能とするために設計されたフレームワークである。
タスク固有の構造(テーブル、グラフ、ツリーなど)を生データから動的に抽出することで、DataMosaicは透過的でステップバイステップの推論トレースを提供し、中間結果の検証を可能にする。
マルチエージェントフレームワーク上に構築されたDataMosaicは、下流のタスク要求に合わせて、一貫性、完全性、プライバシを向上するセルフアダプティブエージェントを編成する。
このアプローチを通じて、DataMosaicは、現在のLLMによる分析システムの限界に対処するだけでなく、基盤的で正確で説明可能なマルチモーダルデータ分析の新しいパラダイムの基盤を築き上げている。
関連論文リスト
- Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - Step-Level Sparse Autoencoder for Reasoning Process Interpretation [48.99201531966593]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて、強力な複雑な推論機能を実現している。
本稿では,ステップレベルスパースオートエンコーダ (SSAE) を提案する。
複数の基本モデルと推論タスクの実験により,抽出した特徴の有効性が示された。
論文 参考訳(メタデータ) (2026-03-03T14:25:02Z) - Diagnosing Structural Failures in LLM-Based Evidence Extraction for Meta-Analysis [0.8193467416247519]
レビューとメタ分析は、物語を構造化され、数値化された研究記録に変換することに頼っている。
大規模言語モデル(LLM)の急速な進歩にもかかわらず、このプロセスの構造的要件を満たすことができるかどうかは不明だ。
本稿では,LLMに基づくエビデンス抽出をスキーマ制約クエリの進行として評価する構造的診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T14:09:43Z) - LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology [3.470217255779291]
本稿では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を提案する。
提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。
LLaMA、GPT、Gemini、Claudeにまたがる評価では、多様なクエリクラスと現実世界の化学ワークフローを網羅し、モジュール設計、即時チューニング、Retrieval-Augmented Generation (RAG)が正確で洞察に富んだエージェント応答を可能にすることを示している。
論文 参考訳(メタデータ) (2025-09-17T13:51:29Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - TAIJI: MCP-based Multi-Modal Data Analytics on Data Lakes [25.05627023905607]
モデルコンテキストプロトコル(MCP)に基づく新しいマルチモーダルデータ分析システムを提案する。
まず,データレイクにおけるマルチモーダルデータのクエリに適したセマンティック演算子階層を定義する。
次に、MPPベースの実行フレームワークを紹介し、各MPPサーバは、特定のデータモダリティに最適化された特別な基礎モデルをホストする。
論文 参考訳(メタデータ) (2025-05-16T14:03:30Z) - Flowco: Rethinking Data Analysis in the Age of LLMs [2.1874189959020427]
大規模言語モデル(LLM)は、単純なルーチン解析のためにそのようなコードを生成することができるようになった。
LLMは、限られたプログラミングの専門知識を持つ者がデータ分析を行うことで、データサイエンスの民主化を約束する。
多くの実世界のアナリストは、特定の分析手順をきめ細かな制御をしなければならない。
本稿では,これらの課題に対処する新たな混合開始システムであるFlowcoを紹介する。
論文 参考訳(メタデータ) (2025-04-18T19:01:27Z) - Beyond Quacking: Deep Integration of Language Models and RAG into DuckDB [44.057784044659726]
大規模言語モデル(LLM)により、このような検索と推論データパイプラインのプロトタイプがより簡単になった。
これはしばしば、データシステムのオーケストレーション、データムーブメントの管理、低レベルの詳細処理を含む。
我々はFlockMTLを紹介した。FlockMTLはLLM機能と検索拡張生成を深く統合した抽象化用拡張である。
論文 参考訳(メタデータ) (2025-04-01T19:48:17Z) - DatawiseAgent: A Notebook-Centric LLM Agent Framework for Automated Data Science [4.1431677219677185]
DatawiseAgentはノートブック中心のエージェントフレームワークで、ユーザ、エージェント、計算環境間のインタラクションを統合する。
DSFライクな計画、インクリメンタルな実行、自己老化、ポストフィルタの4つのステージを編成する。
一貫して、複数のモデル設定で最先端のメソッドを上回るか、マッチする。
論文 参考訳(メタデータ) (2025-03-10T08:32:33Z) - Are Large Language Models Good Data Preprocessors? [5.954202581988127]
高品質なテキストトレーニングデータは、マルチモーダルデータ処理タスクの成功に不可欠である。
BLIPやGITのような画像キャプションモデルからの出力は、しばしばルールベースの手法で修正が難しいエラーや異常を含む。
論文 参考訳(メタデータ) (2025-02-24T02:57:21Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Multi-Task Learning with LLMs for Implicit Sentiment Analysis: Data-level and Task-level Automatic Weight Learning [18.836998294161834]
暗黙の感情分析は、有能なキュー語が欠如していることによる重大な課題を呈する。
MT-ISAは,大規模言語モデルの生成と推論機能を活用することでISAを強化する新しいMTLフレームワークである。
データレベルとタスクレベルの自動重み付け学習(AWL)を導入し、関係を動的に識別し、信頼性の高いデータや重要なタスクを優先する。
論文 参考訳(メタデータ) (2024-12-12T08:15:16Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Beyond Fine-Tuning: Effective Strategies for Mitigating Hallucinations in Large Language Models for Data Analytics [0.0]
大きな言語モデル(LLM)は自然言語処理においてますます重要になってきており、自然言語クエリによる高度なデータ分析を可能にしている。
これらのモデルはしばしば、重要なデータ駆動意思決定において信頼性を損なう「幻覚」や「偽情報」を生成する。
本研究は,LLMにおける幻覚の緩和,特にデータ分析の文脈において焦点をあてる。
論文 参考訳(メタデータ) (2024-10-26T00:45:42Z) - Enhancing LLM's Cognition via Structurization [41.13997892843677]
大規模言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理する。
本稿では,コンテキスト構造化という新しい概念を提案する。
具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。
論文 参考訳(メタデータ) (2024-07-23T12:33:58Z) - Struct-X: Enhancing Large Language Models Reasoning with Structured Data [38.558614152006975]
構造Xは5つの重要なフェーズを通して動作する:read-model-fill-reflect-reason'
構造化データをグラフ埋め込みを用いて位相空間にエンコードする。
行方不明のエンティティ情報を知識検索モジュールで埋める。
最後のフェーズでは、選択したトークンでトポロジネットワークを構築する。
論文 参考訳(メタデータ) (2024-07-17T13:06:25Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。