論文の概要: TalentMine: LLM-Based Extraction and Question-Answering from Multimodal Talent Tables
- arxiv url: http://arxiv.org/abs/2507.00041v1
- Date: Sun, 22 Jun 2025 22:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.4056
- Title: TalentMine: LLM-Based Extraction and Question-Answering from Multimodal Talent Tables
- Title(参考訳): TalentMine:マルチモーダルタレントテーブルからのLCMに基づく抽出と質問応答
- Authors: Varun Mannam, Fang Wang, Chaochun Liu, Xin Chen,
- Abstract要約: 本稿では,抽出したテーブルを意味豊かな表現に変換する新しいフレームワークであるTalentMineを紹介する。
TalentMineは、標準のAWS Textract抽出の0%に対して、クエリ応答タスクの100%の精度を実現している。
比較分析の結果,Claude v3 Haikuモデルが人材管理アプリケーションに最適なパフォーマンスを実現することが明らかとなった。
- 参考スコア(独自算出の注目度): 5.365164774382722
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In talent management systems, critical information often resides in complex tabular formats, presenting significant retrieval challenges for conventional language models. These challenges are pronounced when processing Talent documentation that requires precise interpretation of tabular relationships for accurate information retrieval and downstream decision-making. Current table extraction methods struggle with semantic understanding, resulting in poor performance when integrated into retrieval-augmented chat applications. This paper identifies a key bottleneck - while structural table information can be extracted, the semantic relationships between tabular elements are lost, causing downstream query failures. To address this, we introduce TalentMine, a novel LLM-enhanced framework that transforms extracted tables into semantically enriched representations. Unlike conventional approaches relying on CSV or text linearization, our method employs specialized multimodal reasoning to preserve both structural and semantic dimensions of tabular data. Experimental evaluation across employee benefits document collections demonstrates TalentMine's superior performance, achieving 100% accuracy in query answering tasks compared to 0% for standard AWS Textract extraction and 40% for AWS Textract Visual Q&A capabilities. Our comparative analysis also reveals that the Claude v3 Haiku model achieves optimal performance for talent management applications. The key contributions of this work include (1) a systematic analysis of semantic information loss in current table extraction pipelines, (2) a novel LLM-based method for semantically enriched table representation, (3) an efficient integration framework for retrieval-augmented systems as end-to-end systems, and (4) comprehensive benchmarks on talent analytics tasks showing substantial improvements across multiple categories.
- Abstract(参考訳): タレントマネジメントシステムでは、重要な情報は複雑な表形式に常駐することが多く、従来の言語モデルにおいて重要な検索課題が提示される。
これらの課題は、正確な情報検索と下流の意思決定のために、表関係の正確な解釈を必要とするタレント文書を処理するときに顕著である。
現在の表抽出法は意味理解に苦慮しており、検索強化チャットアプリケーションに組み込むと性能が低下する。
本稿では、構造表情報を抽出できる一方で、表要素間の意味的関係が失われ、下流のクエリー障害を引き起こす。
そこで本研究では,抽出したテーブルを意味的にリッチな表現に変換するLLM拡張フレームワークであるTalentMineを紹介する。
CSVやテキストの線形化に頼っている従来の手法とは異なり、本手法では、表データの構造的次元と意味的次元の両方を保持するために、特殊なマルチモーダル推論を用いる。
従業員福利厚生のドキュメントコレクションに対する実験的評価は、TalentMineの優れたパフォーマンスを示し、クエリ応答タスクでは、標準のAWS Textract抽出では0%、AWS Textract Visual Q&A機能では40%に対して100%の精度を実現している。
比較分析の結果,Claude v3 Haikuモデルが人材管理アプリケーションに最適なパフォーマンスを実現することが明らかとなった。
本研究の主な貢献は,(1)現在の表抽出パイプラインにおける意味情報損失の体系的分析,(2)意味的にリッチな表表現のための新しいLCMベースの手法,(3)エンドツーエンドシステムとしての検索強化システムのための効率的な統合フレームワーク,(4)複数のカテゴリにまたがる大幅な改善を示す人材分析タスクに関する総合的なベンチマークである。
関連論文リスト
- Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [28.47810405584841]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Beyond Relevant Documents: A Knowledge-Intensive Approach for Query-Focused Summarization using Large Language Models [27.90653125902507]
本稿では,知識集約型タスク設定として,クエリ中心の要約を再構成する知識集約型アプローチを提案する。
検索モジュールは、大規模知識コーパスから潜在的に関連のある文書を効率的に検索する。
要約コントローラは、強力な大言語モデル(LLM)ベースの要約器を注意深く調整されたプロンプトとシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-19T18:54:20Z) - H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。
実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-29T21:24:19Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Schema-Driven Information Extraction from Heterogeneous Tables [37.50854811537401]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。
我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文 参考訳(メタデータ) (2023-05-23T17:58:10Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。