論文の概要: ChunkNorris: A High-Performance and Low-Energy Approach to PDF Parsing and Chunking
- arxiv url: http://arxiv.org/abs/2602.00010v1
- Date: Fri, 28 Nov 2025 11:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.184204
- Title: ChunkNorris: A High-Performance and Low-Energy Approach to PDF Parsing and Chunking
- Title(参考訳): ChunkNorris:PDFパースとチャンクに対する高性能で低エネルギーなアプローチ
- Authors: Mathieu Ciancone, Clovis Varangot-Reille, Marion Schaeffer,
- Abstract要約: ChunkNorrisはPDF文書のパースとチャンクを最適化する斬新な手法である。
既存の解析手法やチャンキング手法に対するベンチマークにより,ChunkNorrisの効率性を示す。
本研究は、実世界のリソース制約されたRAGユースケースに対する手法の可能性を強調した。
- 参考スコア(独自算出の注目度): 0.3811219334668792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Retrieval-Augmented Generation applications, the Information Retrieval part is central as it provides the contextual information that enables a Large Language Model to generate an appropriate and truthful response. High quality parsing and chunking are critical as efficient data segmentation directly impacts downstream tasks, i.e. Information Retrieval and answer generation. In this paper, we introduce ChunkNorris, a novel heuristic-based technique designed to optimise the parsing and chunking of PDF documents. Our approach does not rely on machine learning and employs a suite of simple yet effective heuristics to achieve high performance with minimal computational overhead. We demonstrate the efficiency of ChunkNorris through a comprehensive benchmark against existing parsing and chunking methods, evaluating criteria such as execution time, energy consumption, and retrieval accuracy. We propose an open-access dataset to produce our results. ChunkNorris outperforms baseline and more advanced techniques, offering a practical and efficient alternative for Information Retrieval tasks. Therefore, this research highlights the potential of heuristic-based methods for real-world, resource-constrained RAG use cases.
- Abstract(参考訳): Retrieval-Augmented Generation アプリケーションでは、大規模言語モデルが適切かつ真に応答できるようなコンテキスト情報を提供するため、情報検索部が中心となる。
高品質な解析とチャンキングは、効率的なデータセグメンテーションが下流のタスク、すなわち情報検索と回答生成に直接影響を与えるため、非常に重要である。
本稿では,PDF文書のパースとチャンクを最適化する新しいヒューリスティックな手法であるChunkNorrisを紹介する。
われわれの手法は機械学習に頼らず、計算オーバーヘッドを最小限に抑えて高い性能を達成するために、単純で効果的なヒューリスティックの組を採用している。
そこで我々は,ChunkNorrisの既存の解析手法とチャンキング手法に対する総合的なベンチマークにより,実行時間,エネルギー消費,検索精度などの基準を評価することにより,ChunkNorrisの有効性を実証した。
結果を生成するためのオープンアクセスデータセットを提案する。
ChunkNorrisはベースラインと高度な技術より優れており、情報検索タスクの実用的で効率的な代替手段を提供する。
そこで本研究では,実世界のリソース制約されたRAGユースケースに対するヒューリスティックな手法の可能性を強調した。
関連論文リスト
- Easy Data Unlearning Bench [53.1304932656586]
アンラーニングアルゴリズムの評価を簡略化する統一型ベンチマークスイートを導入する。
セットアップとメトリクスの標準化により、未学習のメソッド間で再現性、拡張性、公正な比較が可能になる。
論文 参考訳(メタデータ) (2026-02-18T12:20:32Z) - SparseEval: Efficient Evaluation of Large Language Models by Sparse Optimization [64.95852289011385]
大規模言語モデル(LLM)は拡大を続けており、様々な下流タスクのパフォーマンスは大幅に改善されている。
多数のベンチマークサンプルで推論を行うと、高い計算コストが発生するため、それらの能力を評価するのがますます高価になっている。
SparseEvalは,アンカーウェイトを最適化する勾配降下法を初めて導入し,アンカーセレクションに反復的洗練戦略を採用する手法である。
論文 参考訳(メタデータ) (2026-02-08T11:12:45Z) - SmartChunk Retrieval: Query-Aware Chunk Compression with Planning for Efficient Document RAG [41.16937860730275]
We present SmartChunk, a query-adaptive framework for efficient and robust long-document question answering (QA)。
SmartChunkでは、クエリ毎に最適なチャンク抽象化レベルを予測するプランナーと、要約を繰り返しない高レベルのチャンク埋め込みを生成する軽量圧縮モジュールを使用している。
ユーザがさまざまなドキュメントタイプやクエリスタイルに直面する現実世界のアプリケーションを反映するために、私たちは、SmartChunkを5つのQAベンチマークと1つのドメイン外のデータセットで評価しました。
論文 参考訳(メタデータ) (2025-12-17T01:21:44Z) - Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations [0.0]
階層的なクラスタリングに基づく検索手法を提案する。
本手法は,意味的関連コンテンツを適応的に選択しながら,システム応答の精度と関連性を維持する。
我々のフレームワークは実装が簡単で、既存のRAGパイプラインと簡単に統合できます。
論文 参考訳(メタデータ) (2025-06-16T15:34:29Z) - Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation [80.69067017594709]
大規模言語モデル(LLM)とそのエージェントモデルは、以前のタスクからの推論を維持するのに苦労する。
本稿では,従来の計算を直接再利用し,テスト時に過去のログから推論する新しいフレームワークであるLAGを提案する。
本手法は,ログを使用しない標準的なエージェントシステムよりも優れている。
論文 参考訳(メタデータ) (2025-05-20T14:14:38Z) - Effective Inference-Free Retrieval for Learned Sparse Representations [19.54810957623511]
Learned Sparse Retrieval (LSR)は、学習された単語の袋にテキストをエンコードするために訓練済みの言語モデルを利用する効果的なIRアプローチである。
近年,新たな効率的な逆インデックスベース検索エンジンが提案されており,LSRモデルのトレーニングにおいて正規化の役割が変化したのか,という自然な疑問が投げかけられている。
より効率的なLSRエンコーダを生成するために、正規化を緩和できることが示される。
論文 参考訳(メタデータ) (2025-04-30T09:10:46Z) - Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - Learning Task Representations from In-Context Learning [67.66042137487287]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な習熟性を示した。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法は,テキスト中の実演からタスク固有の情報を抽出し,テキストと回帰タスクの両方で優れる。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Beyond Adapter Retrieval: Latent Geometry-Preserving Composition via Sparse Task Projection [22.748835458594744]
本稿では,検索を超越したアダプタ再利用のための新しいフレームワークを提案する。
我々は,各タスクを潜在プロトタイプベクトルで表現し,対象タスクのプロトタイプを,検索した参照プロトタイプの疎線形結合として近似することを目的とする。
結果として得られる組み合わせ重量は、対応するLoRAアダプタをブレンドするために使用され、ターゲットタスクに合わせて調整された複合アダプタが生成される。
論文 参考訳(メタデータ) (2024-10-13T16:28:38Z) - Retrieval-Oriented Knowledge for Click-Through Rate Prediction [29.55757862617378]
クリックスルー率(CTR)予測は、パーソナライズされたオンラインサービスにとって不可欠である。
underlineretrieval-underlineoriented underlineknowledge(bfname)フレームワークは、実際の検索プロセスをバイパスする。
nameは、検索および集約された表現を保存および模倣する知識ベースを特徴とする。
論文 参考訳(メタデータ) (2024-04-28T20:21:03Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - IOHanalyzer: Detailed Performance Analyses for Iterative Optimization
Heuristics [3.967483941966979]
IOHanalyzerは、IOHのパフォーマンスデータを分析、比較、視覚化するための新しいユーザフレンドリーなツールである。
IOHanalyzerは、固定目標実行時間とベンチマークアルゴリズムの固定予算性能に関する詳細な統計を提供する。
IOHanalyzerは、主要なベンチマークプラットフォームから直接パフォーマンスデータを処理できる。
論文 参考訳(メタデータ) (2020-07-08T08:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。