論文の概要: A Reliability Evaluation of Hybrid Deterministic-LLM Based Approaches for Academic Course Registration PDF Information Extraction
- arxiv url: http://arxiv.org/abs/2604.00003v1
- Date: Mon, 09 Mar 2026 02:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.177524
- Title: A Reliability Evaluation of Hybrid Deterministic-LLM Based Approaches for Academic Course Registration PDF Information Extraction
- Title(参考訳): 学習コース登録PDF情報抽出のためのハイブリッド決定論的LLM手法の信頼性評価
- Authors: Muhammad Anis Al Hilmi, Neelansh Khare, Noel Framil Iglesias,
- Abstract要約: 本研究では,KRS文書からの情報抽出手法の信頼性を3つの戦略を用いて評価した。
実験は、LCMベースのテストのための140の文書と、Camelotベースのパイプライン評価のための860の文書で実施された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates the reliability of information extraction approaches from KRS documents using three strategies: LLM only, Hybrid Deterministic - LLM (regex + LLM), and a Camelot based pipeline with LLM fallback. Experiments were conducted on 140 documents for the LLM based test and 860 documents for the Camelot based pipeline evaluation, covering four study programs with varying data in tables and metadata. Three 12 - 14B LLM models (Gemma 3, Phi 4, and Qwen 2.5) were run locally using Ollama and a consumer grade CPU without a GPU. Evaluations used exact match (EM) and Levenshtein similarity (LS) metrics with a threshold of 0.7. Although not applicable to all models, the results show that the hybrid approach can improve efficiency compared to LLM only, especially for deterministic metadata. The Camelot based pipeline with LLM fallback produced the best combination of accuracy (EM and LS up to 0.99 - 1.00) and computational efficiency (less than 1 second per PDF in most cases). The Qwen 2.5:14b model demonstrated the most consistent performance across all scenarios. These findings confirm that integrating deterministic and LLM methods is increasingly reliable and efficient for information extraction from text based academic documents in computationally constrained environments.
- Abstract(参考訳): LLMのみ,ハイブリッド決定性 - LLM (regex + LLM) と,LCMフォールバックを備えたCamelotベースのパイプラインの3つの戦略を用いて,KRS文書からの情報抽出手法の信頼性を評価する。
実験は、LCMベースのテストのための140の文書と、Camelotベースのパイプライン評価のための860の文書で行われ、テーブルとメタデータの異なる4つの研究プログラムをカバーした。
12-14B LLMモデル(Gemma 3、Phi 4、Qwen 2.5)はOllamaとGPUなしの一般向けCPUを使用してローカルに実行された。
平均一致(EM)とレヴェンシュテイン類似度(LS)は0.7。
全てのモデルに当てはまるものではないが、このハイブリッドアプローチは、特に決定論的メタデータにおいて、LLMのみと比較して効率を向上できることを示す。
LLMのフォールバックを備えたCamelotベースのパイプラインは、精度(EMとLSが0.99から1.00まで)と計算効率(ほとんどの場合、PDFあたり1秒未満)の最良の組み合わせを生み出した。
Qwen 2.5:14bモデルは、すべてのシナリオで最も一貫性のあるパフォーマンスを示した。
これらの結果から, 決定論的手法とLCM手法の統合は, 計算制約のある環境下でのテキストベースの学術文書からの情報抽出において, ますます信頼性が高く, 効率的であることが確認された。
関連論文リスト
- FusionFactory: Fusing LLM Capabilities with Multi-LLM Log Data [60.09659670497899]
大規模言語モデル(LLM)は、さまざまなモデルのランドスケープを持ち、それぞれが異なるタスクで優れています。
この多様性は、研究者に複数のLLMを実際に採用させ、貴重なマルチLLMログデータを残します。
1)実世界のサービスシナリオ(例えば、ローカルおよびAPIベースのサービス)との互換性と、(2)様々なユーザニーズを満たすためにLLMパイプラインの異なる段階での運用の柔軟性である。
論文 参考訳(メタデータ) (2025-07-14T17:58:02Z) - Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - Enhancing LLM Code Generation with Ensembles: A Similarity-Based Selection Approach [6.93983229112122]
コード生成における大規模言語モデル(LLM)のアンサンブル手法を提案する。
投票には,CodeBLEUと行動等価性を用いて構文的・意味的類似性を計算する。
実験により,我々のアンサンブルアプローチはスタンドアローンLLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-03-20T04:38:56Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - LLM-TOPLA: Efficient LLM Ensemble by Maximising Diversity [7.945893812374361]
アンサンブルの成分LLM間の多様性と性能の相関を捉えるために,焦点の多様性指標を導入する。
我々は,N$ベースLLMのプールからトップkサブアンサンブルを選択するために,多様性に最適化されたアンサンブルプルーニングアルゴリズムを開発した。
我々のプルーニング法では、最高性能のLLMサブアンサンブルが$S$で、しばしば$N$よりもずっと小さいことを推奨している。
論文 参考訳(メタデータ) (2024-10-04T22:31:15Z) - MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。
GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。
評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - More Samples or More Prompts? Exploring Effective In-Context Sampling for LLM Few-Shot Prompt Engineering [35.086135550672864]
In-Context Smpling (ICS) を提案し、複数のICLプロンプト入力の構成を最適化し、確実な予測を行う。
3つのデータ類似性に基づくICS戦略による詳細な評価は、これらの戦略がLLMの性能をさらに高める可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-11-16T11:02:49Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。