論文の概要: Layout-Aware Parsing Meets Efficient LLMs: A Unified, Scalable Framework for Resume Information Extraction and Evaluation
- arxiv url: http://arxiv.org/abs/2510.09722v1
- Date: Fri, 10 Oct 2025 07:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.589489
- Title: Layout-Aware Parsing Meets Efficient LLMs: A Unified, Scalable Framework for Resume Information Extraction and Evaluation
- Title(参考訳): Layout-Aware Parsing が LLM を効率よく実現 - Resume 情報抽出と評価のための統一的でスケーラブルなフレームワーク
- Authors: Fanwei Zhu, Jinke Yu, Zulong Chen, Ying Zhou, Junhao Ji, Zhibo Yang, Yuxue Zhang, Haoyuan Hu, Zhenghao Liu,
- Abstract要約: 自動抽出・評価のためのレイアウト認識・効率最適化フレームワークを提案する。
私たちのシステムはAlibabaのインテリジェントなHRプラットフォームに完全にデプロイされています。
- 参考スコア(独自算出の注目度): 31.356673356827432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated resume information extraction is critical for scaling talent acquisition, yet its real-world deployment faces three major challenges: the extreme heterogeneity of resume layouts and content, the high cost and latency of large language models (LLMs), and the lack of standardized datasets and evaluation tools. In this work, we present a layout-aware and efficiency-optimized framework for automated extraction and evaluation that addresses all three challenges. Our system combines a fine-tuned layout parser to normalize diverse document formats, an inference-efficient LLM extractor based on parallel prompting and instruction tuning, and a robust two-stage automated evaluation framework supported by new benchmark datasets. Extensive experiments show that our framework significantly outperforms strong baselines in both accuracy and efficiency. In particular, we demonstrate that a fine-tuned compact 0.6B LLM achieves top-tier accuracy while significantly reducing inference latency and computational cost. The system is fully deployed in Alibaba's intelligent HR platform, supporting real-time applications across its business units.
- Abstract(参考訳): 履歴書情報の自動抽出は人材獲得のスケールアップに不可欠だが、実際のデプロイメントでは、履歴書レイアウトとコンテンツの極端な均一性、大規模言語モデル(LLM)の高コストとレイテンシ、標準化されたデータセットと評価ツールの欠如という3つの大きな課題に直面している。
本稿では,3つの課題すべてに対処する自動抽出・評価のためのレイアウト認識・効率最適化フレームワークを提案する。
本システムは,様々な文書形式を正規化するための微調整レイアウトパーサと,並列プロンプトと命令チューニングに基づく推論効率の高いLCM抽出器と,新しいベンチマークデータセットをサポートする堅牢な2段階自動評価フレームワークを組み合わせる。
大規模な実験により、我々のフレームワークは精度と効率の両方において、強いベースラインを著しく上回っていることが明らかとなった。
特に、微調整されたコンパクトな0.6B LLMは、推論遅延と計算コストを大幅に削減しつつ、最上位の精度を実現することを実証する。
このシステムはAlibabaのインテリジェントなHRプラットフォームに完全にデプロイされており、ビジネスユニット全体でリアルタイムアプリケーションをサポートしている。
関連論文リスト
- AutoSCORE: Enhancing Automated Scoring with Multi-Agent Large Language Models via Structured Component Recognition [27.312190686305588]
大規模言語モデル(LLM)は、自動スコアリングにおいて大きな可能性を示している。
エンド・ツー・エンドのレーダとしての使用は、低い正確性、迅速な感度、限定的な解釈可能性、ルーリックなミスアライメントといった課題に直面している。
本稿では,多エージェント LLM フレームワークである AutoSCORE を提案する。
論文 参考訳(メタデータ) (2025-09-26T05:45:14Z) - Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。
Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。
運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - Towards Adaptive ML Benchmarks: Web-Agent-Driven Construction, Domain Expansion, and Metric Optimization [8.356074728041202]
TAM Benchは、エンドツーエンドの機械学習タスクで大規模言語モデル(LLM)を評価するためのベンチマークである。
3つの重要なイノベーションは、ブラウザの自動化とLLMベースのタスク獲得システムである。
150のキュレートされたAutoMLタスクに基づいて、異なるサイズのベンチマークサブセットを3つ構築する。
論文 参考訳(メタデータ) (2025-09-11T10:10:48Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics [9.549568621873386]
GateLensは、自動車分野のデータ分析のためのLLMベースのシステムである。
遅くて不透明でメンテナンスにコストがかかる従来のマルチエージェントや計画ベースのシステムとは異なり、GateLensはスピード、透明性、信頼性を強調している。
論文 参考訳(メタデータ) (2025-03-27T17:48:32Z) - IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Experts [28.9807389592324]
機械学習のワークフローを自動化するための有望なソリューションとして、大規模言語モデル(LLM)エージェントが登場した。
LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを紹介します。
実際のトレーニングフィードバックに基づいて個々のコンポーネントを体系的に更新することにより、イテレーティブリファインメントはモデル全体のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-02-25T01:52:37Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。
この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。
本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文 参考訳(メタデータ) (2024-10-04T07:58:05Z) - UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs [74.1976921342982]
本稿では,ユーザフレンドリな評価フレームワークであるUltraEvalを紹介し,その軽量性,包括性,モジュール性,効率性を特徴とする。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、ベンチマーク、メトリクスを自由に組み合わせることができる。
論文 参考訳(メタデータ) (2024-04-11T09:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。