論文の概要: Rethinking Domain-Specific LLM Benchmark Construction: A Comprehensiveness-Compactness Approach
- arxiv url: http://arxiv.org/abs/2508.07353v2
- Date: Wed, 13 Aug 2025 03:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 11:55:47.618229
- Title: Rethinking Domain-Specific LLM Benchmark Construction: A Comprehensiveness-Compactness Approach
- Title(参考訳): ドメイン特化LDMベンチマーク構築の再考:包括性-コンパクト性アプローチ
- Authors: Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li,
- Abstract要約: 既存のベンチマークは主にスケーリングの法則に重点を置いており、微調整や広範囲な質問セットの生成に大量のコーパスに依存している。
本稿では,スケーリング法則が特定の領域におけるベンチマーク構築の最適原則であるとは限らないことを実証する。
包括性-コンパクト性原理に基づく反復型ベンチマークフレームワークであるComp-Compを提案する。
- 参考スコア(独自算出の注目度): 28.114780983194333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous benchmarks have been built to evaluate the domain-specific abilities of large language models (LLMs), highlighting the need for effective and efficient benchmark construction. Existing domain-specific benchmarks primarily focus on the scaling law, relying on massive corpora for supervised fine-tuning or generating extensive question sets for broad coverage. However, the impact of corpus and question-answer (QA) set design on the precision and recall of domain-specific LLMs remains unexplored. In this paper, we address this gap and demonstrate that the scaling law is not always the optimal principle for benchmark construction in specific domains. Instead, we propose Comp-Comp, an iterative benchmarking framework based on a comprehensiveness-compactness principle. Here, comprehensiveness ensures semantic recall of the domain, while compactness enhances precision, guiding both corpus and QA set construction. To validate our framework, we conducted a case study in a well-renowned university, resulting in the creation of XUBench, a large-scale and comprehensive closed-domain benchmark. Although we use the academic domain as the case in this work, our Comp-Comp framework is designed to be extensible beyond academia, providing valuable insights for benchmark construction across various domains.
- Abstract(参考訳): 大規模言語モデル(LLM)のドメイン固有の能力を評価するために多くのベンチマークが作成されており、効率的で効率的なベンチマーク構築の必要性を強調している。
既存のドメイン固有のベンチマークは、主にスケーリング法則に重点を置いており、監督された微調整や広範なカバレッジのための広範な質問セットを生成するために大量のコーパスに依存している。
しかし、コーパスとQA(QA)セットの設計がドメイン固有のLLMの精度とリコールに与える影響は未解明のままである。
本稿では、このギャップに対処し、スケーリング法則が特定の領域におけるベンチマーク構築の最適原則であるとは限らないことを示す。
代わりに、包括性-コンパクト性原理に基づく反復ベンチマークフレームワークであるComp-Compを提案する。
ここで、包括性はドメインのセマンティックリコールを保証するが、コンパクト性は精度を高め、コーパスとQAセットの構築を導く。
その結果,大規模かつ包括的なクローズドドメインベンチマークであるXUBenchが開発された。
本研究では学術的領域を用いていますが、Comp-Compフレームワークは学界を超えて拡張可能で、さまざまな領域にわたるベンチマーク構築に有用な洞察を提供するように設計されています。
関連論文リスト
- A Unified Analysis of Generalization and Sample Complexity for Semi-Supervised Domain Adaptation [1.9567015559455132]
ドメイン適応は、ソースドメインの豊富なラベル情報を活用して、限られたラベルを持つターゲットドメインの分類性能を向上させる。
既存の理論的分析のほとんどは、ソースとターゲットドメインが同じ入力空間を共有するような単純化された設定に焦点を当てている。
本稿では、ドメインアライメントに基づくドメイン適応アルゴリズムに関する包括的な理論的研究を行う。
論文 参考訳(メタデータ) (2025-07-30T12:53:08Z) - BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation [13.897645524385274]
BenchHubは動的ベンチマークリポジトリで、研究者や開発者がより大きな言語モデル(LLM)をより効果的に評価できるようにする。
継続的更新とスケーラブルなデータ管理をサポートし、さまざまなドメインやユースケースに合わせてフレキシブルでカスタマイズ可能な評価を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-05-31T09:24:32Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - Building Trust in Black-box Optimization: A Comprehensive Framework for Explainability [1.3812010983144802]
代理最適化(SO)は共通の解決法であるが、その独自性は説明可能性と透明性の欠如につながっている。
EmphInclusive Explainability Metrics for Surrogate Optimization (IEMSO)を提案する。
これらのメトリクスは、SOアプローチの透明性、信頼性、説明可能性を高める。
論文 参考訳(メタデータ) (2024-10-18T16:20:17Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Relational Proxies: Emergent Relationships as Fine-Grained
Discriminators [52.17542855760418]
本稿では,オブジェクトのグローバル部分とローカル部分の間の情報を利用してラベルを符号化する手法を提案する。
我々は、理論的な結果に基づいてプロキシを設計し、7つの挑戦的なきめ細かいベンチマークデータセットに基づいて評価する。
また、この理論を実験的に検証し、複数のベンチマークで一貫した結果を得る。
論文 参考訳(メタデータ) (2022-10-05T11:08:04Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。