論文の概要: Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions
- arxiv url: http://arxiv.org/abs/2603.05895v1
- Date: Fri, 06 Mar 2026 04:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.082435
- Title: Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions
- Title(参考訳): 国連安全保障理事会決議のためのLLMセマンティック・タガーの構築
- Authors: Hussein Ghaly,
- Abstract要約: 本稿では,国連安全保障理事会決議のセマンティックタグ付けにLLMを用いた新たな手法を提案する。
主な目標は、データクリーニングとセマンティックタグタスクのためのアンサンブルシステムを構築するために、LLMパフォーマンスの可変性を活用することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new methodology for using LLM-based systems for accurate and efficient semantic tagging of UN Security Council resolutions. The main goal is to leverage LLM performance variability to build ensemble systems for data cleaning and semantic tagging tasks. We introduce two evaluation metrics: Content Preservation Ratio (CPR) and Tag Well-Formedness (TWF), in order to avoid hallucinations and unnecessary additions or omissions to the input text beyond the task requirement. These metrics allow the selection of the best output from multiple runs of several GPT models. GPT-4.1 achieved the highest metrics for both tasks (Cleaning: CPR 84.9% - Semantic Tagging: CPR 99.99% and TWF 99.92%). In terms of cost, smaller models, such as GPT-4.1-mini, achieved comparable performance to the best model in each task at only 20% of the cost. These metrics ultimately allowed the ensemble to select the optimal output (both cleaned and tagged content) for all the LLM models involved, across multiple runs. With this ensemble design and the use of metrics, we create a reliable LLM system for performing semantic tagging on challenging texts.
- Abstract(参考訳): 本稿では,国連安全保障理事会決議の正確かつ効率的なセマンティックタグ付けにLLMベースのシステムを利用するための新しい手法を提案する。
主な目標は、データクリーニングとセマンティックタグタスクのためのアンサンブルシステムを構築するために、LLMパフォーマンスの可変性を活用することである。
本稿では,CPR(Content Preservation Ratio)とTWF(Tag Well-Formedness)の2つの評価指標を紹介する。
これらのメトリクスは、複数のGPTモデルの複数の実行から最高の出力を選択することを可能にする。
GPT-4.1は両タスクの最高基準を達成した(Cleaning: CPR 84.9% - Semantic Tagging: CPR 99.99%、TWF 99.92%)。
コスト面では、GPT-4.1-miniのような小型モデルは各タスクの20%のコストで最高のモデルに匹敵する性能を達成した。
これらのメトリクスは最終的に、複数の実行で関連する全てのLLMモデルに対して、アンサンブルが最適な出力(クリーン化とタグ付けされたコンテンツの両方)を選択することを許した。
このアンサンブル設計とメトリクスの利用により、課題のあるテキストにセマンティックタグを付けるための信頼性の高いLLMシステムを構築する。
関連論文リスト
- LAMARL: LLM-Aided Multi-Agent Reinforcement Learning for Cooperative Policy Generation [12.098817831819078]
大規模言語モデル (LLM) は単一ロボット設定で将来性を示すが、マルチロボットシステムにおけるそれらの応用はいまだほとんど探索されていない。
本稿では, LLMとMARLを統合し, 手動設計を必要とせずに試料効率を大幅に向上する新しいLAMARL手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T10:59:54Z) - How Many Parameters Does Your Task Really Need? Task Specific Pruning with LLM-Sieve [2.33361323991006]
大きな言語モデル(LLM)は、リソース制約された設定において、狭いタスクのためにますますデプロイされる。
LLM-Sieveは,タスク性能の維持に必要な最小パラメータサブセットにLCMを適用可能なフレームワークである。
論文 参考訳(メタデータ) (2025-05-23T20:17:20Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。