論文の概要: A Survey of Long-Document Retrieval in the PLM and LLM Era
- arxiv url: http://arxiv.org/abs/2509.07759v1
- Date: Tue, 09 Sep 2025 13:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.343287
- Title: A Survey of Long-Document Retrieval in the PLM and LLM Era
- Title(参考訳): PLM, LLM時代の長期文書検索に関する調査
- Authors: Minghan Li, Miyang Luo, Tianrui Lv, Yishuai Zhang, Siqi Zhao, Ercong Nie, Guodong Zhou,
- Abstract要約: この調査は、LDR(Long-Docment Search)の最初の包括的治療を提供する。
古典的語彙モデルと初期ニューラルモデルから近代事前学習モデル(PLM)および大規模言語モデル(LLM)への進化を体系化する。
我々は、ドメイン固有のアプリケーション、特別な評価リソースをレビューし、効率のトレードオフ、マルチモーダルアライメント、忠実さといった重要なオープン課題を概説する。
- 参考スコア(独自算出の注目度): 19.07164308496093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of long-form documents presents a fundamental challenge to information retrieval (IR), as their length, dispersed evidence, and complex structures demand specialized methods beyond standard passage-level techniques. This survey provides the first comprehensive treatment of long-document retrieval (LDR), consolidating methods, challenges, and applications across three major eras. We systematize the evolution from classical lexical and early neural models to modern pre-trained (PLM) and large language models (LLMs), covering key paradigms like passage aggregation, hierarchical encoding, efficient attention, and the latest LLM-driven re-ranking and retrieval techniques. Beyond the models, we review domain-specific applications, specialized evaluation resources, and outline critical open challenges such as efficiency trade-offs, multimodal alignment, and faithfulness. This survey aims to provide both a consolidated reference and a forward-looking agenda for advancing long-document retrieval in the era of foundation models.
- Abstract(参考訳): 長文文書の拡散は、情報検索(IR)の基本的な課題であり、その長さ、分散した証拠、複雑な構造は、標準的な通過レベル技術を超える特殊な方法を要求する。
本調査は,3大時代の長期文書検索(LDR),統合手法,課題,応用を包括的に扱う最初の方法である。
従来の語彙モデルや初期ニューラルモデルから近代事前学習モデル(PLM)や大規模言語モデル(LLM)への進化を体系化し,パスアグリゲーション,階層的エンコーディング,効率的な注意,最新のLLM駆動のリグレードと検索技術といった重要なパラダイムを網羅する。
モデル以外にも、ドメイン固有のアプリケーション、特別な評価リソース、効率のトレードオフ、マルチモーダルアライメント、忠実さといった重要なオープンな課題を概観する。
本調査は, 基礎モデル時代における長期文書検索の促進に向けた, 総合的基準と, 先進的課題の両立を図ることを目的としている。
関連論文リスト
- Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。
我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文 参考訳(メタデータ) (2025-07-17T14:22:24Z) - Large Language Models in Argument Mining: A Survey [15.041650203089057]
Argument Mining (AM) はテキストから議論的構造を抽出することに焦点を当てている。
LLM(Large Language Models)の出現は、AMを大きく変化させ、高度な文脈内学習を可能にした。
本研究は, LLM駆動型AMの最近の進歩を体系的に合成する。
論文 参考訳(メタデータ) (2025-06-19T15:12:58Z) - Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - A Comprehensive Survey on Long Context Language Modeling [118.5540791080351]
Long Context Language Models (LCLM) は、広範囲な入力を効果的かつ効率的に処理し、分析する。
本調査は, LCLMの有効かつ効率的な利用方法, LCLMを効率的に訓練・展開する方法, LCLMを総合的に評価・分析する方法の3つの重要な側面から構成されている。
論文 参考訳(メタデータ) (2025-03-20T17:06:28Z) - A Survey of Model Architectures in Information Retrieval [59.61734783818073]
2019年から現在までの期間は、情報検索(IR)と自然言語処理(NLP)における最大のパラダイムシフトの1つとなっている。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
今後の課題と今後の方向性について、先見的な議論で締めくくります。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - PEARL: Prompting Large Language Models to Plan and Execute Actions Over
Long Documents [78.27865456183397]
長い文書に対する推論を改善するためのフレームワークであるPEARLを提案する。
PEARLの各ステージは、最小限の人間の入力でゼロショットまたは少数ショットのプロンプトによって実装される。
PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長い物語テキストに対して複雑な推論を必要とする質問を含む。
論文 参考訳(メタデータ) (2023-05-23T23:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。