論文の概要: TextMine: LLM-Powered Knowledge Extraction for Humanitarian Mine Action
- arxiv url: http://arxiv.org/abs/2509.15098v1
- Date: Thu, 18 Sep 2025 15:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.31737
- Title: TextMine: LLM-Powered Knowledge Extraction for Humanitarian Mine Action
- Title(参考訳): TextMine: LLMを利用した人道的地雷活動のための知識抽出
- Authors: Chenyue Zhou, Gürkan Solmaz, Flavio Cirillo, Kiril Gashteovski, Jonathan Fürst,
- Abstract要約: TextMineは、構造化されていないレポートから知識トリプルを抽出するためのオントロジー誘導パイプラインである。
ドキュメントチャンキング、ドメイン認識プロンプト、トリプル抽出、および参照ベースとLCM-as-a-Judgeの評価を統合している。
TextMineはグローバルデマイニングの取り組みや他のドメインに適応し、構造化されていないデータを構造化された知識に変換する。
- 参考スコア(独自算出の注目度): 4.990484801014005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanitarian Mine Action has generated extensive best-practice knowledge, but much remains locked in unstructured reports. We introduce TextMine, an ontology-guided pipeline that uses Large Language Models to extract knowledge triples from HMA texts. TextMine integrates document chunking, domain-aware prompting, triple extraction, and both reference-based and LLM-as-a-Judge evaluation. We also create the first HMA ontology and a curated dataset of real-world demining reports. Experiments show ontology-aligned prompts boost extraction accuracy by 44.2%, cut hallucinations by 22.5%, and improve format conformance by 20.9% over baselines. While validated on Cambodian reports, TextMine can adapt to global demining efforts or other domains, transforming unstructured data into structured knowledge.
- Abstract(参考訳): 人道的な鉱山活動は、幅広いベストプラクティスの知識を生み出してきたが、多くは構造化されていない報告に閉じ込められている。
我々は,大規模言語モデルを用いてHMAテキストから知識トリプルを抽出するオントロジー誘導パイプラインであるTextMineを紹介する。
TextMineは、ドキュメントチャンキング、ドメイン認識プロンプト、トリプル抽出、参照ベースとLCM-as-a-Judge評価の両方を統合している。
また、HMAオントロジーと、実世界の採鉱レポートのキュレートされたデータセットも作成します。
実験では、オントロジーの整列によって抽出精度が44.2%向上し、幻覚が22.5%低下し、フォーマット適合性が20.9%向上した。
カンボジアのレポートで検証されているが、TextMineは世界のマイニング活動や他のドメインに適応し、構造化されていないデータを構造化された知識に変換することができる。
関連論文リスト
- SLIDE: Sliding Localized Information for Document Extraction [1.474945380093949]
複数ウィンドウを重畳してローカルコンテキストを生成することで,長いドキュメントを処理するチャンキング手法であるSLIDE(Sliding Localized Information for Document extract)を紹介する。
GraphRAGのパフォーマンスが大幅に向上し、エンティティ抽出が24%向上し、英語の関係抽出が39%向上した。
低リソース言語であるAfrikaansでは、SLIDEはエンティティ抽出が49%増加し、関係抽出が82%改善した。
論文 参考訳(メタデータ) (2025-03-23T06:00:39Z) - Retrieval-Augmented Machine Translation with Unstructured Knowledge [63.97706326080482]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を強化するために追加情報を導入する
機械翻訳(MT)では、従来の研究は通常、ペア化されたMTコーパスや知識グラフからコンテキスト内例を検索する。
本稿では,非構造化文書を用いた検索強化MTについて検討する。
論文 参考訳(メタデータ) (2024-12-05T17:00:32Z) - Extracting and Encoding: Leveraging Large Language Models and Medical Knowledge to Enhance Radiological Text Representation [31.370503681645804]
自由テキストラジオグラフィーレポートから高品質な事実文を抽出するための新しい2段階フレームワークを提案する。
我々のフレームワークには胸部X線テキスト生成システムを評価するための新しい埋め込みベースのメトリクス(CXRFE)も含まれている。
論文 参考訳(メタデータ) (2024-07-02T04:39:19Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text2Struct: A Machine Learning Pipeline for Mining Structured Data from Text [3.495405394644691]
本稿では、テキストアノテーションスキーム、トレーニングデータ処理、機械学習実装を含むエンドツーエンドの機械学習パイプラインであるText2Structを提案する。
テキスト中の数値に関連付けられたメトリクスと単位の抽出としてマイニング問題を定式化した。
数字と実体の関係の予測のほとんどは、接地的真理アノテーションとよく一致した。
論文 参考訳(メタデータ) (2022-12-18T09:31:36Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Modeling Multi-Granularity Hierarchical Features for Relation Extraction [26.852869800344813]
本稿では,原文のみに基づく多粒度特徴抽出手法を提案する。
外部知識を必要とせずに,効果的な構造的特徴が達成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-09T09:44:05Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。