論文の概要: AnnoRetrieve: Efficient Structured Retrieval for Unstructured Document Analysis
- arxiv url: http://arxiv.org/abs/2604.02690v1
- Date: Fri, 03 Apr 2026 03:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.305191
- Title: AnnoRetrieve: Efficient Structured Retrieval for Unstructured Document Analysis
- Title(参考訳): AnnoRetrieve: 構造化されていない文書解析のための効率的な構造化検索
- Authors: Teng Lin, Yuyu Luo, Nan Tang,
- Abstract要約: 埋め込みから構造化アノテーションへ移行する新しい検索パラダイムであるAnnoRetrieveを提案する。
提案システムは,高コストなベクトル比較を,自動生成スキーマよりも軽量な構造化クエリに置き換える。
AnoRetrieveは、インテリジェントな構造化を通じて、コスト効率、正確、スケーラブルなドキュメント分析のための新しいパラダイムを確立している。
- 参考スコア(独自算出の注目度): 11.689256498133446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unstructured documents dominate enterprise and web data, but their lack of explicit organization hinders precise information retrieval. Current mainstream retrieval methods, especially embedding-based vector search, rely on coarse-grained semantic similarity, incurring high computational cost and frequent LLM calls for post-processing. To address this critical issue, we propose AnnoRetrieve, a novel retrieval paradigm that shifts from embeddings to structured annotations, enabling precise, annotation-driven semantic retrieval. Our system replaces expensive vector comparisons with lightweight structured queries over automatically induced schemas, dramatically reducing LLM usage and overall cost. The system integrates two synergistic core innovations: SchemaBoot, which automatically generates document annotation schemas via multi-granularity pattern discovery and constraint-based optimization, laying a foundation for annotation-driven retrieval and eliminating manual schema design, and Structured Semantic Retrieval (SSR), the core retrieval engine, which unifies semantic understanding with structured query execution; by leveraging the annotated structure instead of vector embeddings, SSR achieves precise semantic matching, seamlessly completing attribute-value extraction, table generation, and progressive SQL-based reasoning without relying on LLM interventions. This annotation-driven paradigm overcomes the limitations of traditional vector-based methods with coarse-grained matching and heavy LLM dependency and graph-based methods with high computational overhead. Experiments on three real-world datasets confirm that AnnoRetrieve significantly lowers LLM call frequency and retrieval cost while maintaining high accuracy. AnnoRetrieve establishes a new paradigm for cost-effective, precise, and scalable document analysis through intelligent structuring.
- Abstract(参考訳): 構造化されていない文書が企業やWebデータを支配しているが、明示的な組織が欠如しているため正確な情報検索が困難である。
現在の主流検索法、特に埋め込みに基づくベクトル探索は、粗い粒度のセマンティックな類似性に依存しており、計算コストが高く、後処理を頻繁に行う。
この重要な問題に対処するため、我々はAnnoRetrieveを提案する。AnnoRetrieveは、埋め込みから構造化アノテーションへ移行し、正確なアノテーション駆動のセマンティック検索を可能にする新しい検索パラダイムである。
提案システムでは,高コストなベクトル比較を,自動生成スキーマよりも軽量な構造化クエリに置き換え,LCMの使用率と全体的なコストを劇的に削減する。
システムは2つのシナジスティックなコアイノベーションを統合している: SchemaBootは、複数の粒度パターンの発見と制約ベースの最適化を通じて文書アノテーションスキーマを自動的に生成し、アノテーション駆動の検索と手動スキーマ設計の除去のための基盤を構築し、構造化されたクエリ実行とセマンティック理解を統一するコア検索エンジンであるStructured Semantic Retrieval (SSR) 、ベクトル埋め込みの代わりにアノテーション構造を活用することにより、SSRは正確なセマンティックマッチングを達成し、属性値抽出、テーブル生成、プログレッシブSQLベースの推論をLLMの介入に頼ることなくシームレスに完了する。
このアノテーション駆動のパラダイムは、粗粒度マッチングと重いLLM依存性と高い計算オーバーヘッドを持つグラフベースの手法による従来のベクトルベースの手法の制限を克服する。
3つの実世界のデータセットの実験により、AnnoRetrieveは高い精度を維持しながらLLM呼び出し頻度と検索コストを著しく低減することを確認した。
AnnoRetrieveは、インテリジェントな構造化を通じて、コスト効率、正確、スケーラブルなドキュメント分析のための新しいパラダイムを確立している。
関連論文リスト
- DiffuRank: Effective Document Reranking with Diffusion Language Models [71.16830004674513]
拡散言語モデル(dLLM)に基づいて構築されたフレームワークであるDiffuRankを提案する。
dLLMは、左から右への順序に制約されないより柔軟なデコーディングと生成プロセスをサポートする。
モデルサイズが類似した自己回帰LDMに匹敵する性能を示す。
論文 参考訳(メタデータ) (2026-02-13T02:18:14Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文 参考訳(メタデータ) (2025-05-17T08:48:43Z) - DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing [10.712756715779822]
大規模言語モデル(LLM)は、データ処理において有望であることを示している。
これらのフレームワークは、ユーザが指定した操作を実行する際のコスト削減に重点を置いている。
これは複雑なタスクやデータに問題があります。
本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
論文 参考訳(メタデータ) (2024-10-16T03:22:35Z) - HIRO: Hierarchical Information Retrieval Optimization [0.0]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)に動的に統合することで自然言語処理に革命をもたらした。
RAGの最近の実装は階層的なデータ構造を活用し、様々なレベルの要約と情報密度で文書を整理している。
この複雑さにより、LSMは情報過負荷で"チョーク"し、より洗練されたクエリ機構を必要とする。
論文 参考訳(メタデータ) (2024-06-14T12:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。