論文の概要: VotIE: Information Extraction from Meeting Minutes
- arxiv url: http://arxiv.org/abs/2601.03997v1
- Date: Wed, 07 Jan 2026 15:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.667759
- Title: VotIE: Information Extraction from Meeting Minutes
- Title(参考訳): VotIE:ミーティング分からの情報抽出
- Authors: José Pedro Evans, Luís Filipe Cunha, Purificação Silvano, Alípio Jorge, Nuno Guimarães, Sérgio Nunes, Ricardo Campos,
- Abstract要約: 本稿では,物語の熟考記録における構造化された投票イベントの識別を目的とした新しい情報抽出タスクであるVotIEを紹介する。
我々は,最近導入されたCitiLinkコーパスに基づいて,ポルトガルの自治体時間を用いて,このタスクの最初のベンチマークを構築した。
標準的なドメイン内評価では、微調整エンコーダ(特にXLM-R-CRF)は93.2%のマクロF1に達し、生成的アプローチより優れている。
- 参考スコア(独自算出の注目度): 5.842543771456586
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Municipal meeting minutes record key decisions in local democratic processes. Unlike parliamentary proceedings, which typically adhere to standardized formats, they encode voting outcomes in highly heterogeneous, free-form narrative text that varies widely across municipalities, posing significant challenges for automated extraction. In this paper, we introduce VotIE (Voting Information Extraction), a new information extraction task aimed at identifying structured voting events in narrative deliberative records, and establish the first benchmark for this task using Portuguese municipal minutes, building on the recently introduced CitiLink corpus. Our experiments yield two key findings. First, under standard in-domain evaluation, fine-tuned encoders, specifically XLM-R-CRF, achieve the strongest performance, reaching 93.2\% macro F1, outperforming generative approaches. Second, in a cross-municipality setting that evaluates transfer to unseen administrative contexts, these models suffer substantial performance degradation, whereas few-shot LLMs demonstrate greater robustness, with significantly smaller declines in performance. Despite this generalization advantage, the high computational cost of generative models currently constrains their practicality. As a result, lightweight fine-tuned encoders remain a more practical option for large-scale, real-world deployment. To support reproducible research in administrative NLP, we publicly release our benchmark, trained models, and evaluation framework.
- Abstract(参考訳): 市議会の議事録は、地方民主主義の過程における重要な決定を記録している。
通常、標準化されたフォーマットに準拠する議会の手続きとは異なり、彼らは投票結果を非常に異質で自由な物語のテキストにエンコードし、自治体によって広く異なる。
本稿では,新たな情報抽出タスクであるVotIE(Voting Information extract)を紹介し,最近導入されたCitiLinkコーパスをベースとして,ポルトガルの市町村の議事録を用いた最初の評価基準を確立する。
私たちの実験は2つの重要な結果をもたらす。
第一に、ドメイン内での標準的な評価では、微調整エンコーダ、特にXLM-R-CRFは、93.2\%のマクロF1に達し、生成的アプローチより優れている。
第二に、目に見えない管理コンテキストへの転送を評価する相互通信性の設定では、これらのモデルは大幅に性能劣化する一方、少数ショットのLLMはより堅牢性を示し、性能が著しく低下する。
この一般化の利点にもかかわらず、生成モデルの高い計算コストは、その実用性を制約している。
結果として、軽量な微調整エンコーダは、大規模で現実的なデプロイメントにおいて、より実用的な選択肢のままである。
行政NLPにおける再現可能な研究を支援するため,我々はベンチマーク,トレーニングモデル,評価フレームワークを公開している。
関連論文リスト
- SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Efficient Test-Time Retrieval Augmented Generation [40.84120171611779]
本稿では, ET2RAG というテスト時間検索拡張フレームワークを提案し, 大規模言語モデルの性能向上を図る。
具体的には、ET2RAGはトレーニング不要の手法であり、まず最も関連性の高い文書を検索し、LSMを増強し、多様な候補の応答を効率的に生成する。
論文 参考訳(メタデータ) (2025-11-02T19:32:39Z) - Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information [57.397381631496906]
最適重み(OW)と逆サプライシング人気度(ISP)という2つの新しいアグリゲーションアルゴリズムを開発した。
我々の理論的分析は、これらの手法が軽微な仮定の下での多数決の本質的な制限を確実に緩和することを示している。
我々は,我々のアルゴリズムを人工データセット,UltraFeedbackやMMLUなどのLLMファインチューニングベンチマーク,実世界の医療環境ARMMAN上で実証的に検証した。
論文 参考訳(メタデータ) (2025-10-01T22:21:50Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - How Much Do Large Language Model Cheat on Evaluation? Benchmarking Overestimation under the One-Time-Pad-Based Framework [8.76693832650115]
大規模言語モデル(LLM)を評価する際の過大評価が懸念されている。
本稿では,暗号におけるワンタイムパッド暗号化にインスパイアされた動的評価フレームワークArxivRollを提案する。
論文 参考訳(メタデータ) (2025-07-25T12:39:03Z) - PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models [1.6816171955882597]
PMPOはマスキングに基づく分析を通じて低品質のプロンプトセグメントを特定し、反復的にそれらを書き換えて改良された変種を提案する。
単一のフォワードパスにおける損失を最小限に抑え、出力のサンプリングを排除し、選択のための人または判断に基づくスコアをなくし、変種の中から選択する。
PMPOは、BBHで最高平均精度を達成し、GSM8KとAQUA RATに強く依存し、AlpacaEval 2.0の勝利率を19ポイント以上上げる。
論文 参考訳(メタデータ) (2025-05-22T06:59:10Z) - Arena-Lite: Efficient and Reliable Large Language Model Evaluation via Tournament-Based Direct Comparisons [0.9133451183797616]
本稿では,頭対頭比較に基づいてトーナメント構造を統合するアリーナ・ライトを提案する。
トーナメント構造と直接比較の適用により、ベースライン出力が不要になる。
試行は、アリーナ・ライトがより少ない比較で常に高い信頼性を達成することを示した。
論文 参考訳(メタデータ) (2024-11-02T15:23:28Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。