論文の概要: Evaluating VisualRAG: Quantifying Cross-Modal Performance in Enterprise Document Understanding
- arxiv url: http://arxiv.org/abs/2506.21604v1
- Date: Thu, 19 Jun 2025 18:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.32301
- Title: Evaluating VisualRAG: Quantifying Cross-Modal Performance in Enterprise Document Understanding
- Title(参考訳): VisualRAGの評価: 企業文書理解におけるクロスモーダルパフォーマンスの定量化
- Authors: Varun Mannam, Fang Wang, Xin Chen,
- Abstract要約: クロスモーダルな入力の統合の信頼性を測定するための,体系的,定量的なベンチマークフレームワークを導入する。
本手法は,技術指標とユーザ中心信頼度との間に定量的な関係を確立する。
この作業は、重要なエンタープライズアプリケーションのためのマルチモーダルRAGの信頼性を定量化し、強化するための厳格なフレームワークを提供することによって、責任あるAIデプロイメントを前進させる。
- 参考スコア(独自算出の注目度): 5.861057085203687
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current evaluation frameworks for multimodal generative AI struggle to establish trustworthiness, hindering enterprise adoption where reliability is paramount. We introduce a systematic, quantitative benchmarking framework to measure the trustworthiness of progressively integrating cross-modal inputs such as text, images, captions, and OCR within VisualRAG systems for enterprise document intelligence. Our approach establishes quantitative relationships between technical metrics and user-centric trust measures. Evaluation reveals that optimal modality weighting with weights of 30% text, 15% image, 25% caption, and 30% OCR improves performance by 57.3% over text-only baselines while maintaining computational efficiency. We provide comparative assessments of foundation models, demonstrating their differential impact on trustworthiness in caption generation and OCR extraction-a vital consideration for reliable enterprise AI. This work advances responsible AI deployment by providing a rigorous framework for quantifying and enhancing trustworthiness in multimodal RAG for critical enterprise applications.
- Abstract(参考訳): マルチモーダル生成AIの現在の評価フレームワークは、信頼性を確立するために苦労しており、信頼性が最重要である企業の採用を妨げる。
企業文書インテリジェンスのための VisualRAG システムに,テキスト,画像,キャプション,OCR などのクロスモーダル入力を段階的に統合する上での信頼性を評価するための,体系的,定量的なベンチマークフレームワークを導入する。
本手法は,技術指標とユーザ中心信頼度との間に定量的な関係を確立する。
評価によれば、30%のテキスト、15%のイメージ、25%のキャプション、30%のOCRによる最適なモダリティ重み付けは、計算効率を維持しながら、テキストのみのベースラインよりも57.3%パフォーマンスを向上させる。
基礎モデルの比較評価を行い、キャプション生成における信頼度とOCR抽出に対する差分の影響を実証する。
この作業は、重要なエンタープライズアプリケーションのためのマルチモーダルRAGの信頼性を定量化し、強化するための厳格なフレームワークを提供することによって、責任あるAIデプロイメントを前進させる。
関連論文リスト
- A Context-Aware Dual-Metric Framework for Confidence Estimation in Large Language Models [6.62851757612838]
大規模言語モデル(LLM)に対する現在の信頼度推定法は,応答と文脈情報の関連性を無視する。
本稿では,2つの新しい指標を用いた信頼度推定のためのコンテキスト忠実度と一貫性を統合したCRUXを提案する。
3つのベンチマークデータセットに対する実験は、CRUXの有効性を示し、既存のベースラインよりも高いAUROCを達成した。
論文 参考訳(メタデータ) (2025-08-01T12:58:34Z) - Semantic Chain-of-Trust: Autonomous Trust Orchestration for Collaborator Selection via Hypergraph-Aided Agentic AI [57.58120823855315]
本稿では,新たなセマンティック・チェーン・オブ・トラストの概念に基づく自律的信頼オーケストレーション手法を提案する。
我々の技術はエージェントAIとハイパーグラフを用いてデバイス間の信頼関係を確立し維持する。
実験により,提案手法が資源効率の高い信頼評価を実現することを示す。
論文 参考訳(メタデータ) (2025-07-31T13:53:25Z) - Structured Relevance Assessment for Robust Retrieval-Augmented Language Models [0.0]
本稿では,ALMのロバスト性を高める構造的妥当性評価フレームワークを提案する。
提案手法では,セマンティックマッチングとソース信頼性の両方を考慮した多次元スコアリングシステムを採用している。
予備評価では、幻覚率の大幅な低下と推論過程の透明性の向上が示されている。
論文 参考訳(メタデータ) (2025-07-28T19:20:04Z) - AI Agents-as-Judge: Automated Assessment of Accuracy, Consistency, Completeness and Clarity for Enterprise Documents [0.0]
本研究では,AIエージェントを用いた高度に構造化された企業文書の自動レビューのためのモジュール型マルチエージェントシステムを提案する。
LangChain、CrewAI、TruLens、Guidanceといった現代的なオーケストレーションツールを使用して、文書のセクション単位での評価を可能にする。
99%の情報一貫性(人間の場合は92%)を実現し、エラーとバイアス率を半減させ、1文書あたりの平均レビュー時間を30分から2.5分に短縮する。
論文 参考訳(メタデータ) (2025-06-23T17:46:15Z) - CrEst: Credibility Estimation for Contexts in LLMs via Weak Supervision [15.604947362541415]
CrEstは、推論中のコンテキスト文書の信頼性を評価する弱教師付きフレームワークである。
3つのモデルアーキテクチャと5つのデータセットにわたる実験は、CrEstが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-06-17T18:44:21Z) - On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [334.48358909967845]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。
彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。
本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-20T06:20:36Z) - Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey [92.36487127683053]
Retrieval-Augmented Generation (RAG)は、AIGC(AIGC)の課題に対処するために設計された高度な技術である。
RAGは信頼性と最新の外部知識を提供し、幻覚を減らし、幅広いタスクで関連するコンテキストを保証する。
RAGの成功と可能性にもかかわらず、最近の研究により、RAGパラダイムはプライバシーの懸念、敵対的攻撃、説明責任の問題など、新たなリスクももたらしていることが示されている。
論文 参考訳(メタデータ) (2025-02-08T06:50:47Z) - MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.19073789961769]
生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。
MATEval: "Multi-Agent Text Evaluation framework"を提案する。
本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
論文 参考訳(メタデータ) (2024-03-28T10:41:47Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。