論文の概要: DepthCharge: A Domain-Agnostic Framework for Measuring Depth-Dependent Knowledge in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.23514v1
- Date: Thu, 05 Mar 2026 20:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.998533
- Title: DepthCharge: A Domain-Agnostic Framework for Measuring Depth-Dependent Knowledge in Large Language Models
- Title(参考訳): DepthCharge: 大規模言語モデルにおける深さ依存的知識を測定するためのドメインに依存しないフレームワーク
- Authors: Alexander Sheppert,
- Abstract要約: 大きな言語モデルは一般的な質問に答えるときに有能に見えるが、ドメイン固有の詳細にプッシュされると失敗することが多い。
3つのイノベーションを通じて知識の深さを測定するドメインに依存しないフレームワークであるDepthChargeを紹介します。
モデルが実際に言及している概念に基づいてフォローアップ質問を生成する適応的探索、権威のある情報源からのオンデマンドの事実検証、あらゆる深さのサンプルサイズが一定である生存統計。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models appear competent when answering general questions but often fail when pushed into domain-specific details. No existing methodology provides an out-of-the-box solution for measuring how deeply LLMs can sustain accurate responses under adaptive follow-up questioning across arbitrary domains. We present DepthCharge, a domain-agnostic framework that measures knowledge depth through three innovations: adaptive probing that generates follow-up questions based on concepts the model actually mentions, on-demand fact verification from authoritative sources, and survival statistics with constant sample sizes at every depth level. The framework can be deployed on any knowledge domain with publicly verifiable facts, without requiring pre-constructed test sets or domain-specific expertise. DepthCharge results are relative to the evaluator model used for answer checking, making the framework a tool for comparative evaluation rather than absolute accuracy certification. Empirical validation across four diverse domains (Medicine, Constitutional Law, Ancient Rome, and Quantum Computing) with five frontier models demonstrates that DepthCharge reveals depth-dependent performance variation hidden by standard benchmarks. Expected Valid Depth (EVD) ranges from 3.45 to 7.55 across model-domain combinations, and model rankings vary substantially by domain, with no single model dominating all areas. Cost-performance analysis further reveals that expensive models do not always achieve deeper knowledge, suggesting that domain-specific evaluation is more informative than aggregate benchmarks for model selection in professional applications.
- Abstract(参考訳): 大きな言語モデルは一般的な質問に答えるときに有能に見えるが、ドメイン固有の詳細にプッシュされると失敗することが多い。
既存の方法論では、任意のドメインにまたがる適応的なフォローアップ質問の下で、LLMがいかに正確な応答を維持できるかを測るアウト・オブ・ザ・ボックスのソリューションを提供していません。
本稿では,3つのイノベーションを通じて知識深度を測定するドメイン非依存のフレームワークであるDepthChargeを紹介する。モデルが実際に言及している概念に基づいたフォローアップ質問を生成する適応的探索,権威のある情報源からのオンデマンド事実検証,各深度レベルで一定のサンプルサイズを持つ生存統計である。
フレームワークは、事前に構築されたテストセットやドメイン固有の専門知識を必要とせずに、公に検証可能な事実を持った知識ドメインにデプロイすることができる。
DepthChargeの結果は、回答チェックに使用される評価モデルと相対的であり、フレームワークを絶対精度認証ではなく比較評価のためのツールにする。
5つのフロンティアモデルを持つ4つの異なるドメイン(メディシン、憲法法、古代ローマ、量子コンピューティング)にまたがる実証的な検証は、DepthChargeが標準ベンチマークで隠された深さ依存のパフォーマンスのばらつきを明らかにしていることを示している。
Valid Depth (EVD) はモデルドメインの組み合わせによって 3.45 から 7.55 まで変化しており、モデルランキングはドメインによって大きく異なる。
コストパフォーマンス分析により、高価なモデルは必ずしも深い知識を得られないことが明らかとなり、プロのアプリケーションにおけるモデル選択のための集約ベンチマークよりもドメイン固有の評価の方が有益であることが示唆された。
関連論文リスト
- AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models [0.0]
AA-Omniscienceは6000の質問に対する事実的リコールと知識のキャリブレーションを測定するために設計されたベンチマークである。
モデルの評価は、事実のリコールを測定する有界メトリック(-100から100)であるOmniscience Indexを測定する。
その結果、フロンティアモデル全体の持続的な事実性とキャリブレーションの弱点が明らかになった。
論文 参考訳(メタデータ) (2025-11-17T06:27:16Z) - Demystifying Network Foundation Models [14.775836458250799]
本研究は,ネットワークファウンデーションモデル (NFM) に符号化された潜伏知識の体系的研究である。
4種類のNFMを評価し,それぞれに有意な異方性,不整合性特徴感度パターンが認められた。
私たちの研究は、すべてのモデルにまたがる多くの制限を特定し、それらに対処することで、モデルのパフォーマンスが大幅に改善できることを示します。
論文 参考訳(メタデータ) (2025-09-27T03:53:46Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。
本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文 参考訳(メタデータ) (2024-06-28T17:42:08Z) - Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making [1.3812010983144802]
本研究は,サイバーセキュリティ,医療,金融など多種多様な分野にわたる言語モデル(LLM)を評価する。
その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
論文 参考訳(メタデータ) (2024-06-25T20:52:31Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。