論文の概要: TextMine: Data, Evaluation Framework and Ontology-guided LLM Pipeline for Humanitarian Mine Action
- arxiv url: http://arxiv.org/abs/2509.15098v2
- Date: Wed, 08 Oct 2025 08:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.136626
- Title: TextMine: Data, Evaluation Framework and Ontology-guided LLM Pipeline for Humanitarian Mine Action
- Title(参考訳): TextMine:人道的鉱山活動のためのデータ, 評価フレームワーク, オントロジー誘導LLMパイプライン
- Authors: Chenyue Zhou, Gürkan Solmaz, Flavio Cirillo, Kiril Gashteovski, Jonathan Fürst,
- Abstract要約: HMA(Humanitarian Mine Action)は、紛争地域からの地雷の検出と除去の課題に対処する。
HMA機関が生み出す生命維持活動の知識の多くは、非構造的な報告書に埋もれている。
この問題に対処するために、最初のデータセット、評価フレームワーク、オントロジー誘導型大規模言語モデル(LLM)パイプラインであるTextMineを提案する。
- 参考スコア(独自算出の注目度): 4.990484801014005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanitarian Mine Action (HMA) addresses the challenge of detecting and removing landmines from conflict regions. Much of the life-saving operational knowledge produced by HMA agencies is buried in unstructured reports, limiting the transferability of information between agencies. To address this issue, we propose TextMine: the first dataset, evaluation framework and ontology-guided large language model (LLM) pipeline for knowledge extraction in the HMA domain. TextMine structures HMA reports into (subject, relation, object)-triples, thus creating domain-specific knowledge. To ensure real-world relevance, we created the dataset in collaboration with Cambodian Mine Action Center (CMAC). We further introduce a bias-aware evaluation framework that combines human-annotated triples with an LLM-as-Judge protocol to mitigate position bias in reference-free scoring. Our experiments show that ontology-aligned prompts improve extraction accuracy by up to 44.2%, reduce hallucinations by 22.5%, and enhance format adherence by 20.9% compared to baseline models. We publicly release the dataset and code.
- Abstract(参考訳): HMA(Humanitarian Mine Action)は、紛争地域からの地雷の検出と除去の課題に対処する。
HMA機関が生み出す生命維持活動に関する知識の多くは非構造的な報告書に埋もれており、機関間の情報の転送可能性を制限する。
この問題に対処するために、HMAドメインにおける知識抽出のための最初のデータセット、評価フレームワーク、オントロジー誘導型大規模言語モデル(LLM)パイプラインであるTextMineを提案する。
TextMine構造 HMAは(オブジェクト、リレーション、オブジェクト)トリップにレポートし、ドメイン固有の知識を生成する。
実世界の関連性を確保するため、カンボジア鉱山行動センター(CMAC)と共同でデータセットを作成しました。
さらに,人間の注釈付きトリプルとLDM-as-Judgeプロトコルを組み合わせることで,基準フリースコアリングにおける位置バイアスを軽減するバイアス対応評価フレームワークを導入する。
実験の結果,オントロジー整合性により抽出精度が44.2%向上し,幻覚が22.5%低下し,標準モデルに比べて20.9%向上することがわかった。
データセットとコードを公開しています。
関連論文リスト
- SLIDE: Sliding Localized Information for Document Extraction [1.474945380093949]
複数ウィンドウを重畳してローカルコンテキストを生成することで,長いドキュメントを処理するチャンキング手法であるSLIDE(Sliding Localized Information for Document extract)を紹介する。
GraphRAGのパフォーマンスが大幅に向上し、エンティティ抽出が24%向上し、英語の関係抽出が39%向上した。
低リソース言語であるAfrikaansでは、SLIDEはエンティティ抽出が49%増加し、関係抽出が82%改善した。
論文 参考訳(メタデータ) (2025-03-23T06:00:39Z) - Retrieval-Augmented Machine Translation with Unstructured Knowledge [63.97706326080482]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を強化するために追加情報を導入する
機械翻訳(MT)では、従来の研究は通常、ペア化されたMTコーパスや知識グラフからコンテキスト内例を検索する。
本稿では,非構造化文書を用いた検索強化MTについて検討する。
論文 参考訳(メタデータ) (2024-12-05T17:00:32Z) - Extracting and Encoding: Leveraging Large Language Models and Medical Knowledge to Enhance Radiological Text Representation [31.370503681645804]
自由テキストラジオグラフィーレポートから高品質な事実文を抽出するための新しい2段階フレームワークを提案する。
我々のフレームワークには胸部X線テキスト生成システムを評価するための新しい埋め込みベースのメトリクス(CXRFE)も含まれている。
論文 参考訳(メタデータ) (2024-07-02T04:39:19Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text2Struct: A Machine Learning Pipeline for Mining Structured Data from Text [3.495405394644691]
本稿では、テキストアノテーションスキーム、トレーニングデータ処理、機械学習実装を含むエンドツーエンドの機械学習パイプラインであるText2Structを提案する。
テキスト中の数値に関連付けられたメトリクスと単位の抽出としてマイニング問題を定式化した。
数字と実体の関係の予測のほとんどは、接地的真理アノテーションとよく一致した。
論文 参考訳(メタデータ) (2022-12-18T09:31:36Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Modeling Multi-Granularity Hierarchical Features for Relation Extraction [26.852869800344813]
本稿では,原文のみに基づく多粒度特徴抽出手法を提案する。
外部知識を必要とせずに,効果的な構造的特徴が達成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-09T09:44:05Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。