論文の概要: SEAL: Structure and Element Aware Learning to Improve Long Structured Document Retrieval
- arxiv url: http://arxiv.org/abs/2508.20778v2
- Date: Sun, 31 Aug 2025 09:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 12:29:36.811491
- Title: SEAL: Structure and Element Aware Learning to Improve Long Structured Document Retrieval
- Title(参考訳): SEAL:長い構造化文書検索を改善するための構造と要素認識学習
- Authors: Xinhao Huang, Zhibo Ren, Yipeng Yu, Ying Zhou, Zulong Chen, Zeyi Wen,
- Abstract要約: 現在の手法では、構造的特徴や要素レベルのセマンティクスを効果的に活用できない。
我々は,新しいコントラスト学習フレームワークを提案する。
構造認識学習を活用して、セマンティック階層とマスクされた要素アライメントを保存し、きめ細かいセマンティック識別を行う。
- 参考スコア(独自算出の注目度): 30.699899976704135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In long structured document retrieval, existing methods typically fine-tune pre-trained language models (PLMs) using contrastive learning on datasets lacking explicit structural information. This practice suffers from two critical issues: 1) current methods fail to leverage structural features and element-level semantics effectively, and 2) the lack of datasets containing structural metadata. To bridge these gaps, we propose \our, a novel contrastive learning framework. It leverages structure-aware learning to preserve semantic hierarchies and masked element alignment for fine-grained semantic discrimination. Furthermore, we release \dataset, a long structured document retrieval dataset with rich structural annotations. Extensive experiments on both released and industrial datasets across various modern PLMs, along with online A/B testing, demonstrate consistent performance improvements, boosting NDCG@10 from 73.96\% to 77.84\% on BGE-M3. The resources are available at https://github.com/xinhaoH/SEAL.
- Abstract(参考訳): 長い構造化文書検索において、既存の手法は通常、明示的な構造情報を持たないデータセットの対照的な学習を用いて、微調整された事前訓練された言語モデル(PLM)を使用する。
この慣行は2つの重大な問題に悩まされている。
1)現在の手法では、構造的特徴や要素レベルの意味論を効果的に活用することができず、
2) 構造メタデータを含むデータセットの欠如。
これらのギャップを埋めるために,新しいコントラスト学習フレームワークであるShaourを提案する。
構造認識学習を活用して、セマンティック階層とマスクされた要素アライメントを保存し、きめ細かいセマンティック識別を行う。
さらに、リッチな構造アノテーションを備えた長い構造化文書検索データセットである \dataset をリリースする。
オンラインのA/Bテストとともに、様々な近代PLMにおけるリリースデータセットと産業データセットに関する広範な実験は、一貫したパフォーマンス向上を示し、BGE-M3ではNDCG@10を73.96\%から77.84\%に向上させた。
リソースはhttps://github.com/xinhaoH/SEAL.comで入手できる。
関連論文リスト
- MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters [55.34921520578968]
視覚言語モデル(VLM)は、テキストと公式の統一的な認識を実現している。
パラメータが0.1Bしか持たない統一認識モデルUniRec-0.1Bを提案する。
文字、単語、行、段落、文書など、複数のレベルでテキストや公式の認識を行うことができる。
論文 参考訳(メタデータ) (2025-12-24T10:35:21Z) - Is Implicit Knowledge Enough for LLMs? A RAG Approach for Tree-based Structures [0.5352699766206808]
大規模言語モデル(LLM)は、文脈内の情報に基づいて応答を生成するのに適している。
Retrieval-Augmented Generation (RAG)は、関連する文書を検索して、モデルのコンテキスト内学習を強化する。
本稿では,木構造からの知識を線形化する手法を提案する。
論文 参考訳(メタデータ) (2025-10-12T20:52:43Z) - Struc-EMB: The Potential of Structure-Aware Encoding in Language Embeddings [16.728984584960738]
本稿では,構造認識テキストの埋め込み生成のための新しいパラダイムを,体系的に導入し,評価する。
本稿では,逐次連結と並列キャッシングという2つのプロセス内手法について検討する。
並列キャッシングは、長い高信号のコンテキストに対してより効果的にスケールするが、気晴らしにはより敏感である。
論文 参考訳(メタデータ) (2025-10-09T19:45:54Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。
本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Struct-X: Enhancing Large Language Models Reasoning with Structured Data [38.558614152006975]
構造Xは5つの重要なフェーズを通して動作する:read-model-fill-reflect-reason'
構造化データをグラフ埋め込みを用いて位相空間にエンコードする。
行方不明のエンティティ情報を知識検索モジュールで埋める。
最後のフェーズでは、選択したトークンでトポロジネットワークを構築する。
論文 参考訳(メタデータ) (2024-07-17T13:06:25Z) - mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding [100.17063271791528]
MLLMの性能向上を目的とした統一構造学習を提案する。
我々のモデルDocOwl 1.5は、10のビジュアル文書理解ベンチマーク上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-19T16:48:40Z) - StructLM: Towards Building Generalist Models for Structured Knowledge Grounding [49.10029030628653]
大規模言語モデル(LLM)では、最先端(SoTA)モデルの背後にある構造化データラグを平均35%処理できる。
私たちは、MistralとCodeLlamaモデルファミリに基づいたStructLMと呼ばれる一連のモデルをトレーニングします。
我々のStructLMシリーズは、評価された18のデータセットのうち16のタスク固有モデルを超え、8つのSKGタスクに新しいSoTAパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-02-26T15:47:01Z) - Wikiformer: Pre-training with Structured Information of Wikipedia for
Ad-hoc Retrieval [21.262531222066208]
本稿では,ウィキペディアの構造的知識に基づいて,情報検索タスクに適した4つの事前学習目標を考案する。
既存の事前学習手法と比較して,本手法はトレーニングコーパスにおける意味的知識をよりよく捉えることができる。
生物医学・法学領域における実験結果から,本手法は垂直領域において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-12-17T09:31:47Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。