論文の概要: MiNER: A Two-Stage Pipeline for Metadata Extraction from Municipal Meeting Minutes
- arxiv url: http://arxiv.org/abs/2602.00316v1
- Date: Fri, 30 Jan 2026 21:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.114962
- Title: MiNER: A Two-Stage Pipeline for Metadata Extraction from Municipal Meeting Minutes
- Title(参考訳): MiNER: 市町村会分からメタデータ抽出のための2段階パイプライン
- Authors: Rodrigo Batista, Luís Filipe Cunha, Purificação Silvano, Nuno Guimarães, Alípio Jorge, Evelin Amorim, Ricardo Campos,
- Abstract要約: 効果的な情報検索には、ミーティング番号、日付、場所、参加者、開始/終了時間などのメタデータを識別する必要がある。
既存の名前付きエンティティ認識(NER)モデルは、ドメイン固有のカテゴリに適合しないため、このタスクには不適である。
自治体の議事録からメタデータを抽出するための2段階パイプラインを提案する。
- 参考スコア(独自算出の注目度): 5.5200589500916
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Municipal meeting minutes are official documents of local governance, exhibiting heterogeneous formats and writing styles. Effective information retrieval (IR) requires identifying metadata such as meeting number, date, location, participants, and start/end times, elements that are rarely standardized or easy to extract automatically. Existing named entity recognition (NER) models are ill-suited to this task, as they are not adapted to such domain-specific categories. In this paper, we propose a two-stage pipeline for metadata extraction from municipal minutes. First, a question answering (QA) model identifies the opening and closing text segments containing metadata. Transformer-based models (BERTimbau and XLM-RoBERTa with and without a CRF layer) are then applied for fine-grained entity extraction and enhanced through deslexicalization. To evaluate our proposed pipeline, we benchmark both open-weight (Phi) and closed-weight (Gemini) LLMs, assessing predictive performance, inference cost, and carbon footprint. Our results demonstrate strong in-domain performance, better than larger general-purpose LLMs. However, cross-municipality evaluation reveals reduced generalization reflecting the variability and linguistic complexity of municipal records. This work establishes the first benchmark for metadata extraction from municipal meeting minutes, providing a solid foundation for future research in this domain.
- Abstract(参考訳): 市議会の議事録は地方行政の公式文書であり、異質な形式や書体を展示している。
効果的な情報検索(IR)には、ミーティング番号、日付、場所、参加者、開始/終了時間などのメタデータを識別する必要がある。
既存の名前付きエンティティ認識(NER)モデルは、ドメイン固有のカテゴリに適合しないため、このタスクには不適である。
本稿では,自治体の議事録からメタデータを抽出するための2段階パイプラインを提案する。
まず、質問応答(QA)モデルは、メタデータを含むテキストセグメントの開閉を識別する。
変換器をベースとしたモデル(BERTimbau と XLM-RoBERTa と CRF 層を含まないモデル)を微細な実体抽出に適用し,デレクシカル化により強化する。
提案したパイプラインを評価するために,オープンウェイト (Phi) とクローズドウェイト (Gemini) の両方のLCMをベンチマークし,予測性能,推論コスト,炭素フットプリントを評価した。
以上の結果から,より大きな汎用LLMよりも優れたドメイン内性能が得られた。
しかし,市町村の記録の多様性と言語的複雑さを反映した一般化の縮小が示される。
本研究は,自治体会議の議事録からメタデータを抽出するための最初のベンチマークを確立し,この領域における今後の研究の確かな基盤を提供する。
関連論文リスト
- VotIE: Information Extraction from Meeting Minutes [5.842543771456586]
本稿では,物語の熟考記録における構造化された投票イベントの識別を目的とした新しい情報抽出タスクであるVotIEを紹介する。
我々は,最近導入されたCitiLinkコーパスに基づいて,ポルトガルの自治体時間を用いて,このタスクの最初のベンチマークを構築した。
標準的なドメイン内評価では、微調整エンコーダ(特にXLM-R-CRF)は93.2%のマクロF1に達し、生成的アプローチより優れている。
論文 参考訳(メタデータ) (2026-01-07T15:06:53Z) - GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI [52.13138825802668]
GeoFMは地球観測を変革しているが、評価には標準化されたプロトコルが欠けている。
GEO-Bench-2は、分類、セグメンテーション、回帰、オブジェクト検出、インスタンスセグメンテーションにまたがる包括的なフレームワークでこの問題に対処する。
GEO-Bench-2のコード、データ、およびリーダーボードは、パーミッシブライセンスの下で公開されている。
論文 参考訳(メタデータ) (2025-11-19T17:45:02Z) - Robust Nearest Neighbour Retrieval Using Targeted Manifold Manipulation [0.0]
最近傍の検索は、分類と説明可能なAIパイプラインの中心である。
特徴多様体の指定された領域に各サンプルをどの程度容易に適用できるかを評価することによって,検索を再現するTMM-NNを提案する。
TMM-NNは軽量でクエリ固有のトリガパッチを通じてこれを実装している。
論文 参考訳(メタデータ) (2025-11-09T07:37:05Z) - MeXtract: Light-Weight Metadata Extraction from Scientific Papers [48.73595915402094]
本稿では,科学論文からのメタデータ抽出を目的とした軽量言語モデルであるMeXtractを紹介する。
MeXtractはMOLEベンチマークでメタデータ抽出の最先端性能を達成する。
研究コミュニティのために、すべてのコード、データセット、モデルを公開しています。
論文 参考訳(メタデータ) (2025-10-08T11:12:28Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。