論文の概要: Benchmarking for Domain-Specific LLMs: A Case Study on Academia and Beyond
- arxiv url: http://arxiv.org/abs/2508.07353v3
- Date: Tue, 09 Sep 2025 03:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.913753
- Title: Benchmarking for Domain-Specific LLMs: A Case Study on Academia and Beyond
- Title(参考訳): ドメイン特化LDMのベンチマーク:アカデミックとそれ以上のケーススタディ
- Authors: Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li,
- Abstract要約: Comp-Compは、包括性とコンパクト性の原則に基づく反復的なベンチマークフレームワークである。
本稿では,有名大学におけるケーススタディとして,PolyBenchの創出について紹介する。
- 参考スコア(独自算出の注目度): 35.39855750197463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing demand for domain-specific evaluation of large language models (LLMs) has led to the development of numerous benchmarks. These efforts often adhere to the principle of data scaling, relying on large corpora or extensive question-answer (QA) sets to ensure broad coverage. However, the impact of corpus and QA set design on the precision and recall of domain-specific LLM performance remains poorly understood. In this paper, we argue that data scaling is not always the optimal principle for domain-specific benchmark construction. Instead, we introduce Comp-Comp, an iterative benchmarking framework grounded in the principle of comprehensiveness and compactness. Comprehensiveness ensures semantic recall by covering the full breadth of the domain, while compactness improves precision by reducing redundancy and noise. To demonstrate the effectiveness of our approach, we present a case study conducted at a well-renowned university, resulting in the creation of PolyBench, a large-scale, high-quality academic benchmark. Although this study focuses on academia, the Comp-Comp framework is domain-agnostic and readily adaptable to a wide range of specialized fields. The source code and datasets can be accessed at https://github.com/Anya-RB-Chen/COMP-COMP.
- Abstract(参考訳): 大規模言語モデル(LLM)のドメイン固有の評価に対する需要が増大し、多くのベンチマークが開発されている。
これらの取り組みは、大規模なコーパスや広範囲な質問応答(QA)セットに頼って、広範なカバレッジを確保するデータスケーリングの原則に固執することが多い。
しかし、コーパスとQAセットの設計がドメイン固有のLLM性能の精度とリコールに与える影響はよく分かっていない。
本稿では,データスケーリングがドメイン固有のベンチマーク構築の最適原則であるとは限らないことを論じる。
代わりに、包括性とコンパクト性の原則に基づく反復的なベンチマークフレームワークであるComp-Compを導入する。
包括性はドメインの全幅をカバーすることによってセマンティックリコールを保証するが、コンパクト性は冗長性とノイズを低減して精度を向上させる。
提案手法の有効性を実証するため,大学におけるケーススタディを行い,大規模で高品質な学術ベンチマークであるPolyBenchを作成した。
本研究は学術に焦点をあてるが、Comp-Compフレームワークはドメインに依存しず、幅広い専門分野に容易に適応できる。
ソースコードとデータセットはhttps://github.com/Anya-RB-Chen/COMP-COMPでアクセスできる。
関連論文リスト
- A Unified Analysis of Generalization and Sample Complexity for Semi-Supervised Domain Adaptation [1.9567015559455132]
ドメイン適応は、ソースドメインの豊富なラベル情報を活用して、限られたラベルを持つターゲットドメインの分類性能を向上させる。
既存の理論的分析のほとんどは、ソースとターゲットドメインが同じ入力空間を共有するような単純化された設定に焦点を当てている。
本稿では、ドメインアライメントに基づくドメイン適応アルゴリズムに関する包括的な理論的研究を行う。
論文 参考訳(メタデータ) (2025-07-30T12:53:08Z) - BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation [13.897645524385274]
BenchHubは動的ベンチマークリポジトリで、研究者や開発者がより大きな言語モデル(LLM)をより効果的に評価できるようにする。
継続的更新とスケーラブルなデータ管理をサポートし、さまざまなドメインやユースケースに合わせてフレキシブルでカスタマイズ可能な評価を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-05-31T09:24:32Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - Building Trust in Black-box Optimization: A Comprehensive Framework for Explainability [1.3812010983144802]
代理最適化(SO)は共通の解決法であるが、その独自性は説明可能性と透明性の欠如につながっている。
EmphInclusive Explainability Metrics for Surrogate Optimization (IEMSO)を提案する。
これらのメトリクスは、SOアプローチの透明性、信頼性、説明可能性を高める。
論文 参考訳(メタデータ) (2024-10-18T16:20:17Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Relational Proxies: Emergent Relationships as Fine-Grained
Discriminators [52.17542855760418]
本稿では,オブジェクトのグローバル部分とローカル部分の間の情報を利用してラベルを符号化する手法を提案する。
我々は、理論的な結果に基づいてプロキシを設計し、7つの挑戦的なきめ細かいベンチマークデータセットに基づいて評価する。
また、この理論を実験的に検証し、複数のベンチマークで一貫した結果を得る。
論文 参考訳(メタデータ) (2022-10-05T11:08:04Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。