論文の概要: TextMine: Data, Evaluation Framework and Ontology-guided LLM Pipeline for Humanitarian Mine Action
- arxiv url: http://arxiv.org/abs/2509.15098v2
- Date: Wed, 08 Oct 2025 08:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.136626
- Title: TextMine: Data, Evaluation Framework and Ontology-guided LLM Pipeline for Humanitarian Mine Action
- Title(参考訳): TextMine:人道的鉱山活動のためのデータ, 評価フレームワーク, オントロジー誘導LLMパイプライン
- Authors: Chenyue Zhou, Gürkan Solmaz, Flavio Cirillo, Kiril Gashteovski, Jonathan Fürst,
- Abstract要約: HMA(Humanitarian Mine Action)は、紛争地域からの地雷の検出と除去の課題に対処する。
HMA機関が生み出す生命維持活動の知識の多くは、非構造的な報告書に埋もれている。
この問題に対処するために、最初のデータセット、評価フレームワーク、オントロジー誘導型大規模言語モデル(LLM)パイプラインであるTextMineを提案する。
- 参考スコア(独自算出の注目度): 4.990484801014005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanitarian Mine Action (HMA) addresses the challenge of detecting and removing landmines from conflict regions. Much of the life-saving operational knowledge produced by HMA agencies is buried in unstructured reports, limiting the transferability of information between agencies. To address this issue, we propose TextMine: the first dataset, evaluation framework and ontology-guided large language model (LLM) pipeline for knowledge extraction in the HMA domain. TextMine structures HMA reports into (subject, relation, object)-triples, thus creating domain-specific knowledge. To ensure real-world relevance, we created the dataset in collaboration with Cambodian Mine Action Center (CMAC). We further introduce a bias-aware evaluation framework that combines human-annotated triples with an LLM-as-Judge protocol to mitigate position bias in reference-free scoring. Our experiments show that ontology-aligned prompts improve extraction accuracy by up to 44.2%, reduce hallucinations by 22.5%, and enhance format adherence by 20.9% compared to baseline models. We publicly release the dataset and code.
- Abstract(参考訳): HMA(Humanitarian Mine Action)は、紛争地域からの地雷の検出と除去の課題に対処する。
HMA機関が生み出す生命維持活動に関する知識の多くは非構造的な報告書に埋もれており、機関間の情報の転送可能性を制限する。
この問題に対処するために、HMAドメインにおける知識抽出のための最初のデータセット、評価フレームワーク、オントロジー誘導型大規模言語モデル(LLM)パイプラインであるTextMineを提案する。
TextMine構造 HMAは(オブジェクト、リレーション、オブジェクト)トリップにレポートし、ドメイン固有の知識を生成する。
実世界の関連性を確保するため、カンボジア鉱山行動センター(CMAC)と共同でデータセットを作成しました。
さらに,人間の注釈付きトリプルとLDM-as-Judgeプロトコルを組み合わせることで,基準フリースコアリングにおける位置バイアスを軽減するバイアス対応評価フレームワークを導入する。
実験の結果,オントロジー整合性により抽出精度が44.2%向上し,幻覚が22.5%低下し,標準モデルに比べて20.9%向上することがわかった。
データセットとコードを公開しています。
関連論文リスト
- Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。
実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文 参考訳(メタデータ) (2026-01-12T09:03:42Z) - HACo-Det: A Study Towards Fine-Grained Machine-Generated Text Detection under Human-AI Coauthoring [14.887491317701997]
本稿では,人間-AI共著者によるMGT検出の可能性について検討する。
より微細な検出器は、数値AI比で、共認可されたテキスト検出への経路を舗装することができることを示唆する。
実験結果から, 平均F1スコア0.462において, 計量法は微粒度検出に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:52:44Z) - SLIDE: Sliding Localized Information for Document Extraction [1.474945380093949]
複数ウィンドウを重畳してローカルコンテキストを生成することで,長いドキュメントを処理するチャンキング手法であるSLIDE(Sliding Localized Information for Document extract)を紹介する。
GraphRAGのパフォーマンスが大幅に向上し、エンティティ抽出が24%向上し、英語の関係抽出が39%向上した。
低リソース言語であるAfrikaansでは、SLIDEはエンティティ抽出が49%増加し、関係抽出が82%改善した。
論文 参考訳(メタデータ) (2025-03-23T06:00:39Z) - Retrieval-Augmented Machine Translation with Unstructured Knowledge [63.97706326080482]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を強化するために追加情報を導入する
機械翻訳(MT)では、従来の研究は通常、ペア化されたMTコーパスや知識グラフからコンテキスト内例を検索する。
本稿では,非構造化文書を用いた検索強化MTについて検討する。
論文 参考訳(メタデータ) (2024-12-05T17:00:32Z) - Extracting and Encoding: Leveraging Large Language Models and Medical Knowledge to Enhance Radiological Text Representation [31.370503681645804]
自由テキストラジオグラフィーレポートから高品質な事実文を抽出するための新しい2段階フレームワークを提案する。
我々のフレームワークには胸部X線テキスト生成システムを評価するための新しい埋め込みベースのメトリクス(CXRFE)も含まれている。
論文 参考訳(メタデータ) (2024-07-02T04:39:19Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - FloodBrain: Flood Disaster Reporting by Web-based Retrieval Augmented
Generation with an LLM [0.9374652839580183]
FloodBrain(floodbrain.com)に組み込んだ洗練されたパイプラインを導入する。
当社のパイプラインは,Web検索結果からの情報を同化して,洪水イベントに関する詳細な,正確なレポートを生成する。
GPT-4に割り当てられたスコアと人的評価者によるスコアとの間には顕著な相関関係がみられた。
論文 参考訳(メタデータ) (2023-11-05T08:34:26Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Text2Struct: A Machine Learning Pipeline for Mining Structured Data from Text [3.495405394644691]
本稿では、テキストアノテーションスキーム、トレーニングデータ処理、機械学習実装を含むエンドツーエンドの機械学習パイプラインであるText2Structを提案する。
テキスト中の数値に関連付けられたメトリクスと単位の抽出としてマイニング問題を定式化した。
数字と実体の関係の予測のほとんどは、接地的真理アノテーションとよく一致した。
論文 参考訳(メタデータ) (2022-12-18T09:31:36Z) - Full-Text Argumentation Mining on Scientific Publications [3.8754200816873787]
フルテキストSAMに対してADURとAREを組み合わせた逐次パイプラインモデルを提案する。
両サブタスクにおける事前学習言語モデル(PLM)の性能について,最初の解析を行った。
本稿では,非連続型ADUと談話コネクタの解釈が重要な課題であることを示す。
論文 参考訳(メタデータ) (2022-10-24T10:05:30Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Modeling Multi-Granularity Hierarchical Features for Relation Extraction [26.852869800344813]
本稿では,原文のみに基づく多粒度特徴抽出手法を提案する。
外部知識を必要とせずに,効果的な構造的特徴が達成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-09T09:44:05Z) - Emotion-Cause Pair Extraction in Customer Reviews [3.561118125328526]
我々は,オンラインレビューの分野において,ECPEにおける研究成果を提示することを目的としている。
手動でアノテートしたデータセットを用いて、ニューラルネットワークを用いて感情の原因ペアを抽出するアルゴリズムを探索する。
本稿では,従来の参考資料を用いたモデルと感情要因のペア抽出と,感情認識単語の埋め込み領域の研究を組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-12-07T20:56:20Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。