論文の概要: TelcoAI: Advancing 3GPP Technical Specification Search through Agentic Multi-Modal Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2601.16984v1
- Date: Mon, 17 Nov 2025 22:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.110688
- Title: TelcoAI: Advancing 3GPP Technical Specification Search through Agentic Multi-Modal Retrieval-Augmented Generation
- Title(参考訳): TelcoAI:エージェントマルチモーダル検索による3GPP技術仕様検索の改善
- Authors: Rahul Ghosh, Chun-Hao Liu, Gaurav Rele, Vidya Sagar Ravipati, Hazar Aouad,
- Abstract要約: 既存のアプローチは、複雑なクエリ、視覚情報、ドキュメント相互依存性を扱うのに不足している。
3GPPドキュメンテーションに適したエージェント型マルチモーダル検索生成(RAG)システムであるTelcoAIを提案する。
専門家によるクエリーアシステムを含む複数のベンチマークで評価された場合、リコールは87%、クレームリコールは83%、忠実度は92%で、最先端のベースラインよりも16%高い。
- 参考スコア(独自算出の注目度): 3.3770295589054746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The 3rd Generation Partnership Project (3GPP) produces complex technical specifications essential to global telecommunications, yet their hierarchical structure, dense formatting, and multi-modal content make them difficult to process. While Large Language Models (LLMs) show promise, existing approaches fall short in handling complex queries, visual information, and document interdependencies. We present TelcoAI, an agentic, multi-modal Retrieval-Augmented Generation (RAG) system tailored for 3GPP documentation. TelcoAI introduces section-aware chunking, structured query planning, metadata-guided retrieval, and multi-modal fusion of text and diagrams. Evaluated on multiple benchmarks-including expert-curated queries-our system achieves $87\%$ recall, $83\%$ claim recall, and $92\%$ faithfulness, representing a $16\%$ improvement over state-of-the-art baselines. These results demonstrate the effectiveness of agentic and multi-modal reasoning in technical document understanding, advancing practical solutions for real-world telecommunications research and engineering.
- Abstract(参考訳): 第3世代パートナーシッププロジェクト(3GPP)は、グローバル通信に不可欠な複雑な技術仕様を生成するが、その階層構造、密なフォーマット、マルチモーダルコンテンツは処理を困難にしている。
LLM(Large Language Models)は将来性を示すが、既存のアプローチは複雑なクエリや視覚情報、ドキュメント相互依存を扱うには不十分である。
3GPPドキュメンテーションに適したエージェント型マルチモーダル検索生成(RAG)システムであるTelcoAIを提案する。
TelcoAIは、セクション対応チャンキング、構造化クエリ計画、メタデータ誘導検索、テキストとダイアグラムのマルチモーダル融合を導入している。
専門家によるクエリーアシステムを含む複数のベンチマークで評価すると、リコールは87.%、クレームリコールは83.%、忠実度は92.%で、最先端のベースラインよりも16.%高い。
これらの結果は,技術文書理解におけるエージェント的・マルチモーダル推論の有効性を実証し,実世界の電気通信研究・工学における実践的ソリューションを推し進めるものである。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Unlocking Financial Insights: An advanced Multimodal Summarization with Multimodal Output Framework for Financial Advisory Videos [11.550322270589952]
FASTER(Financial Advisory Summariser with Textual Embedded Relevant Image)は、最適化された簡潔な要約を生成するフレームワークである。
FASTERは、セマンティックな視覚的記述にBLIP、テキストパターンにOCR、話者ダイアリゼーションをBOS機能としてWhisperベースの書き起こしにBLIPを使用している。
A modified Direct Preference Optimization (DPO)-based loss function, equipped with BOS-specific fact-checking, ensure precision, Relevance, and factual consistency。
論文 参考訳(メタデータ) (2025-09-25T09:54:19Z) - CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。
我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - Zero-Shot Document Understanding using Pseudo Table of Contents-Guided Retrieval-Augmented Generation [4.875345207589195]
DocsRayは、トレーニング不要の文書理解システムである。
擬似コンテンツテーブル(TOC)生成と階層型検索拡張生成(RAG)を統合する
論文 参考訳(メタデータ) (2025-07-31T03:14:45Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation [11.53083922927901]
HM-RAGは階層型マルチエージェントマルチモーダルRAGフレームワークである。
構造化、非構造化、グラフベースのデータ間での動的知識合成のための協調知能の先駆者である。
論文 参考訳(メタデータ) (2025-04-13T06:55:33Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。