論文の概要: GovRelBench:A Benchmark for Government Domain Relevance
- arxiv url: http://arxiv.org/abs/2507.21419v1
- Date: Tue, 29 Jul 2025 01:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.458488
- Title: GovRelBench:A Benchmark for Government Domain Relevance
- Title(参考訳): GovRelBench:政府ドメイン関連ベンチマーク
- Authors: Haiquan Wang, Yi Chen, Shang Zeng, Yun Bian, Zhe Cui,
- Abstract要約: 本稿では,政府領域におけるLLMのコア能力を評価するためのベンチマークであるGovRelBenchを提案する。
GovRelBenchは政府ドメインプロンプトと、専用の評価ツールであるGovRelBERTで構成されている。
本研究は、政府領域における大規模モデルの能力評価フレームワークを強化することを目的としており、関連する研究・実践のための効果的なツールを提供する。
- 参考スコア(独自算出の注目度): 5.972925070184453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current evaluations of LLMs in the government domain primarily focus on safety considerations in specific scenarios, while the assessment of the models' own core capabilities, particularly domain relevance, remains insufficient. To address this gap, we propose GovRelBench, a benchmark specifically designed for evaluating the core capabilities of LLMs in the government domain. GovRelBench consists of government domain prompts and a dedicated evaluation tool, GovRelBERT. During the training process of GovRelBERT, we introduce the SoftGovScore method: this method trains a model based on the ModernBERT architecture by converting hard labels to soft scores, enabling it to accurately compute the text's government domain relevance score. This work aims to enhance the capability evaluation framework for large models in the government domain, providing an effective tool for relevant research and practice. Our code and dataset are available at https://github.com/pan-xi/GovRelBench.
- Abstract(参考訳): 政府領域におけるLLMの現在の評価は、主に特定のシナリオにおける安全性の考慮に焦点を当てているが、モデル自身のコア能力、特にドメイン関連性の評価は依然として不十分である。
このギャップに対処するために、政府領域におけるLLMのコア能力を評価するために特別に設計されたベンチマークであるGovRelBenchを提案する。
GovRelBenchは政府ドメインプロンプトと、専用の評価ツールであるGovRelBERTで構成されている。
本手法は,GovRelBERTの学習過程において,ハードラベルをソフトスコアに変換することによって,ModernBERTアーキテクチャに基づくモデルをトレーニングし,テキストの政府領域関連スコアを正確に計算する。
本研究は、政府領域における大規模モデルの能力評価フレームワークを強化することを目的としており、関連する研究・実践のための効果的なツールを提供する。
私たちのコードとデータセットはhttps://github.com/pan-xi/GovRelBench.orgで公開されています。
関連論文リスト
- MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
既存の手法は静的なベンチマークと労働集約的なデータ収集に依存しており、実際の評価を制限している。
我々は,オープンソースのモデルコンテキストプロトコル(MCP)ベースのフレームワークである oursystemname を紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Beyond Benchmarks: A Novel Framework for Domain-Specific LLM Evaluation and Knowledge Mapping [0.7555681642774916]
本稿では,言語モデル(LM)評価における2つの重要な課題として,信頼性の高いドメイン固有ベンチマークの作成と,ドメイン適応時の知識表現の理解について論じる。
本稿では,LMや人為的なキュレーションに頼らずに,生のドメインコーパスを補完型ベンチマークに変換する決定論的パイプラインを提案する。
提案手法は,TFとTF-IDFを用いたドメイン固有キーワードと関連する単語リストを生成し,プロンプトとターゲットのペアを構築する。
我々は,これらのプロンプトを適切なドメイン固有ターゲットで完了させる能力を測定し,計算コストの低いドメイン知識を直接評価することによって,モデルを評価する。
論文 参考訳(メタデータ) (2025-06-09T11:30:12Z) - BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation [13.897645524385274]
BenchHubは動的ベンチマークリポジトリで、研究者や開発者がより大きな言語モデル(LLM)をより効果的に評価できるようにする。
継続的更新とスケーラブルなデータ管理をサポートし、さまざまなドメインやユースケースに合わせてフレキシブルでカスタマイズ可能な評価を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-05-31T09:24:32Z) - GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning [9.226215535668162]
対戦型ゲームベースインタラクションに基づく適応評価フレームワークGuessArenaを提案する。
我々のフレームワークは、動的ドメイン知識モデリングとプログレッシブ推論アセスメントをシームレスに統合します。
論文 参考訳(メタデータ) (2025-05-28T17:59:43Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - DMind Benchmark: Toward a Holistic Assessment of LLM Capabilities across the Web3 Domain [6.275468311396066]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的なパフォーマンスを達成した。
DMind Benchmarkは、9つの重要なサブフィールドをカバーする総合的なWeb3指向評価スイートである。
評価対象はChatGPT, Claude, DeepSeek, Gemini, Grok, Qwenなど26モデルである。
論文 参考訳(メタデータ) (2025-04-18T16:40:39Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Firenze: Model Evaluation Using Weak Signals [5.723905680436377]
本稿では,機械学習モデルの性能比較のための新しいフレームワークFirenzeを紹介する。
興味領域と呼ばれるサンプルの特定のサブセットに対して計算・結合されたマーカーは、実世界のパフォーマンスを頑健に見積もることができることを示す。
論文 参考訳(メタデータ) (2022-07-02T13:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。