論文の概要: ChunkNorris: A High-Performance and Low-Energy Approach to PDF Parsing and Chunking
- arxiv url: http://arxiv.org/abs/2602.00010v1
- Date: Fri, 28 Nov 2025 11:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.184204
- Title: ChunkNorris: A High-Performance and Low-Energy Approach to PDF Parsing and Chunking
- Title(参考訳): ChunkNorris:PDFパースとチャンクに対する高性能で低エネルギーなアプローチ
- Authors: Mathieu Ciancone, Clovis Varangot-Reille, Marion Schaeffer,
- Abstract要約: ChunkNorrisはPDF文書のパースとチャンクを最適化する斬新な手法である。
既存の解析手法やチャンキング手法に対するベンチマークにより,ChunkNorrisの効率性を示す。
本研究は、実世界のリソース制約されたRAGユースケースに対する手法の可能性を強調した。
- 参考スコア(独自算出の注目度): 0.3811219334668792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Retrieval-Augmented Generation applications, the Information Retrieval part is central as it provides the contextual information that enables a Large Language Model to generate an appropriate and truthful response. High quality parsing and chunking are critical as efficient data segmentation directly impacts downstream tasks, i.e. Information Retrieval and answer generation. In this paper, we introduce ChunkNorris, a novel heuristic-based technique designed to optimise the parsing and chunking of PDF documents. Our approach does not rely on machine learning and employs a suite of simple yet effective heuristics to achieve high performance with minimal computational overhead. We demonstrate the efficiency of ChunkNorris through a comprehensive benchmark against existing parsing and chunking methods, evaluating criteria such as execution time, energy consumption, and retrieval accuracy. We propose an open-access dataset to produce our results. ChunkNorris outperforms baseline and more advanced techniques, offering a practical and efficient alternative for Information Retrieval tasks. Therefore, this research highlights the potential of heuristic-based methods for real-world, resource-constrained RAG use cases.
- Abstract(参考訳): Retrieval-Augmented Generation アプリケーションでは、大規模言語モデルが適切かつ真に応答できるようなコンテキスト情報を提供するため、情報検索部が中心となる。
高品質な解析とチャンキングは、効率的なデータセグメンテーションが下流のタスク、すなわち情報検索と回答生成に直接影響を与えるため、非常に重要である。
本稿では,PDF文書のパースとチャンクを最適化する新しいヒューリスティックな手法であるChunkNorrisを紹介する。
われわれの手法は機械学習に頼らず、計算オーバーヘッドを最小限に抑えて高い性能を達成するために、単純で効果的なヒューリスティックの組を採用している。
そこで我々は,ChunkNorrisの既存の解析手法とチャンキング手法に対する総合的なベンチマークにより,実行時間,エネルギー消費,検索精度などの基準を評価することにより,ChunkNorrisの有効性を実証した。
結果を生成するためのオープンアクセスデータセットを提案する。
ChunkNorrisはベースラインと高度な技術より優れており、情報検索タスクの実用的で効率的な代替手段を提供する。
そこで本研究では,実世界のリソース制約されたRAGユースケースに対するヒューリスティックな手法の可能性を強調した。
関連論文リスト
- Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations [0.0]
階層的なクラスタリングに基づく検索手法を提案する。
本手法は,意味的関連コンテンツを適応的に選択しながら,システム応答の精度と関連性を維持する。
我々のフレームワークは実装が簡単で、既存のRAGパイプラインと簡単に統合できます。
論文 参考訳(メタデータ) (2025-06-16T15:34:29Z) - Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation [80.69067017594709]
大規模言語モデル(LLM)とそのエージェントモデルは、以前のタスクからの推論を維持するのに苦労する。
本稿では,従来の計算を直接再利用し,テスト時に過去のログから推論する新しいフレームワークであるLAGを提案する。
本手法は,ログを使用しない標準的なエージェントシステムよりも優れている。
論文 参考訳(メタデータ) (2025-05-20T14:14:38Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - Learning Task Representations from In-Context Learning [67.66042137487287]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な習熟性を示した。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法は,テキスト中の実演からタスク固有の情報を抽出し,テキストと回帰タスクの両方で優れる。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Beyond Adapter Retrieval: Latent Geometry-Preserving Composition via Sparse Task Projection [22.748835458594744]
本稿では,検索を超越したアダプタ再利用のための新しいフレームワークを提案する。
我々は,各タスクを潜在プロトタイプベクトルで表現し,対象タスクのプロトタイプを,検索した参照プロトタイプの疎線形結合として近似することを目的とする。
結果として得られる組み合わせ重量は、対応するLoRAアダプタをブレンドするために使用され、ターゲットタスクに合わせて調整された複合アダプタが生成される。
論文 参考訳(メタデータ) (2024-10-13T16:28:38Z) - Retrieval-Oriented Knowledge for Click-Through Rate Prediction [29.55757862617378]
クリックスルー率(CTR)予測は、パーソナライズされたオンラインサービスにとって不可欠である。
underlineretrieval-underlineoriented underlineknowledge(bfname)フレームワークは、実際の検索プロセスをバイパスする。
nameは、検索および集約された表現を保存および模倣する知識ベースを特徴とする。
論文 参考訳(メタデータ) (2024-04-28T20:21:03Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - IOHanalyzer: Detailed Performance Analyses for Iterative Optimization
Heuristics [3.967483941966979]
IOHanalyzerは、IOHのパフォーマンスデータを分析、比較、視覚化するための新しいユーザフレンドリーなツールである。
IOHanalyzerは、固定目標実行時間とベンチマークアルゴリズムの固定予算性能に関する詳細な統計を提供する。
IOHanalyzerは、主要なベンチマークプラットフォームから直接パフォーマンスデータを処理できる。
論文 参考訳(メタデータ) (2020-07-08T08:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。