Fugu-MT 論文翻訳(概要): Beyond Benchmarks: A Novel Framework for Domain-Specific LLM Evaluation and Knowledge Mapping

論文の概要: Beyond Benchmarks: A Novel Framework for Domain-Specific LLM Evaluation and Knowledge Mapping

arxiv url: http://arxiv.org/abs/2506.07658v1
Date: Mon, 09 Jun 2025 11:30:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.930402
Title: Beyond Benchmarks: A Novel Framework for Domain-Specific LLM Evaluation and Knowledge Mapping
Title（参考訳）: Beyond Benchmarks: ドメイン特化LDM評価と知識マッピングのための新しいフレームワーク
Authors: Nitin Sharma, Thomas Wolfers, Çağatay Yıldız,
Abstract要約: 本稿では,言語モデル(LM)評価における2つの重要な課題として,信頼性の高いドメイン固有ベンチマークの作成と,ドメイン適応時の知識表現の理解について論じる。本稿では,LMや人為的なキュレーションに頼らずに,生のドメインコーパスを補完型ベンチマークに変換する決定論的パイプラインを提案する。提案手法は,TFとTF-IDFを用いたドメイン固有キーワードと関連する単語リストを生成し,プロンプトとターゲットのペアを構築する。我々は,これらのプロンプトを適切なドメイン固有ターゲットで完了させる能力を測定し,計算コストの低いドメイン知識を直接評価することによって,モデルを評価する。
参考スコア（独自算出の注目度）: 0.7555681642774916
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The paper addresses two critical challenges in language model (LM) evaluation: creating reliable domain-specific benchmarks and understanding knowledge representation during domain adaptation. We introduce a deterministic pipeline that converts raw domain corpora into completion-type benchmarks without relying on LMs or human curation, eliminating benchmark contamination issues while enabling evaluation on the latest domain data. Our approach generates domain-specific keywords and related word lists using TF and Term TF-IDF methods and constructs prompt-target pairs. We evaluate models by measuring their ability to complete these prompts with the correct domain-specific targets, providing a direct assessment of domain knowledge with low computational cost. Through comprehensive experiments across multiple models (GPT-2 medium/XL, Llama-2/3.1, OLMo-2, Qwen-2, Mistral) and domains, we demonstrate that our benchmark strongly correlates with expert-generated benchmarks while providing a more accurate measure of domain knowledge than traditional perplexity metrics. We reveal that domain adaptation happens rapidly in smaller models (within 500 steps) and illustrate a new approach to domain knowledge evaluation in base models during training for early stopping. By extending mechanistic analysis to domain adaptation, we discover that initial-to-mid layers are primarily responsible for attribute extraction, while later layers focus on next token prediction. Furthermore, we show that during adaptation, forgetting begins in the middle layers, where attribute extraction happens and is amplified in later layers. Our work provides both a practical evaluation methodology for domain-specific LMs and novel insights into knowledge representation during adaptation, with implications for more efficient fine-tuning strategies and targeted approaches to mitigate catastrophic forgetting.
Abstract（参考訳）: 本稿では,言語モデル(LM)評価における2つの重要な課題として,信頼性の高いドメイン固有ベンチマークの作成と,ドメイン適応時の知識表現の理解について論じる。そこで,本研究では,実ドメインコーパスをLMや人為的キュレーションに頼らずに完成型ベンチマークに変換する決定論的パイプラインを導入し,最新のドメインデータの評価を可能にしながら,ベンチマーク汚染問題を排除した。提案手法は,TFとTF-IDFを用いたドメイン固有キーワードと関連する単語リストを生成し,プロンプトとターゲットのペアを構築する。我々は,これらのプロンプトを適切なドメイン固有ターゲットで完了させる能力を測定し,計算コストの低いドメイン知識を直接評価することによって,モデルを評価する。複数のモデル(GPT-2 medium/XL, Llama-2/3.1, OLMo-2, Qwen-2, Mistral)とドメインの総合的な実験を通じて、我々のベンチマークは、従来の複雑度指標よりも正確なドメイン知識の測定を行いながら、専門家が作成したベンチマークと強く相関していることを示した。ドメイン適応はより小さなモデル(500ステップ以内)で急速に起こり、早期停止のためのトレーニング中のベースモデルにおけるドメイン知識評価に対する新しいアプローチを示す。メカニスティック解析をドメイン適応に拡張することにより、初期から中間までの層が属性抽出に主に関与し、後続の層は次のトークン予測に重点を置いていることが分かる。さらに, 適応中は, 属性抽出が行われる中間層で忘れが始まり, 後層で増幅されることを示す。我々の研究は、ドメイン固有のLMの実践的評価手法と、適応中の知識表現に関する新たな知見の両方を提供し、より効率的な微調整戦略と破滅的な忘れを緩和するためのターゲットアプローチを示唆している。

関連論文リスト

A Unified Analysis of Generalization and Sample Complexity for Semi-Supervised Domain Adaptation [1.9567015559455132]
ドメイン適応は、ソースドメインの豊富なラベル情報を活用して、限られたラベルを持つターゲットドメインの分類性能を向上させる。既存の理論的分析のほとんどは、ソースとターゲットドメインが同じ入力空間を共有するような単純化された設定に焦点を当てている。本稿では、ドメインアライメントに基づくドメイン適応アルゴリズムに関する包括的な理論的研究を行う。
論文参考訳（メタデータ） (2025-07-30T12:53:08Z)
Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-26T11:53:59Z)
Context-Aware Self-Adaptation for Domain Generalization [32.094290282897894]
ドメインの一般化は、ソーストレーニング領域で適切な学習アルゴリズムを開発することを目的としている。ドメイン一般化のためのコンテキスト認識自己適応(CASA)と呼ばれる新しい2段階のアプローチを提案する。
論文参考訳（メタデータ） (2025-04-03T22:33:38Z)
TestAgent: A Framework for Domain-Adaptive Evaluation of LLMs via Dynamic Benchmark Construction and Exploratory Interaction [29.72874725703848]
大規模言語モデル(LLM)は、様々な垂直領域に徐々に展開されている。現在の評価方法は、実世界の要求に合致しない静的でリソース集約的なデータセットに依存している。 textbfBenchmark+は従来の質問応答ベンチマークを、より柔軟な戦略基準のフォーマットに拡張します。我々は,これらの概念を実装したエージェントベースの評価フレームワークであるtextbftextscTestAgentを提案する。
論文参考訳（メタデータ） (2024-10-15T11:20:42Z)
DG-PIC: Domain Generalized Point-In-Context Learning for Point Cloud Understanding [41.49771026674969]
本稿では,ドメイン一般化ポイントクラウド理解のための統一モデルにおいて,複数のドメインと複数のタスクを扱う,新しい,実用的なマルチドメインマルチタスク設定を提案する。我々のDG-PICは、テスト中にモデル更新を一切必要とせず、見えないドメインと複数のタスク、例えば、ポイントクラウドの再構築、デノナイズ、登録を1つの統一モデルで処理できる。
論文参考訳（メタデータ） (2024-07-11T18:21:40Z)
Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models [3.072340427031969]
Few-shot Action Recognition (FSAR) は、ビデオ中の新しいアクションをわずかに例を使って識別できるモデルを学ぶことを目的としている。メタトレーニング中に見られるベースデータセットと評価に使用される新しいデータセットは、異なるドメインから得ることができると仮定すると、クロスドメインの少数ショット学習によってデータ収集とアノテーションコストが軽減される。我々は、新しいクロスドメインタスクに対して、既存の最先端の単一ドメイン、転送ベース、およびクロスドメインFSARメソッドを体系的に評価する。
論文参考訳（メタデータ） (2024-06-03T07:48:18Z)
StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文参考訳（メタデータ） (2024-06-01T02:41:34Z)
Towards Efficient Methods in Medical Question Answering using Knowledge Graph Embeddings [3.944219308229571]
自然言語処理(NLP)では、機械読解(MRC)は与えられた文脈に基づいて質問に答えるタスクである。医療領域における質問に対処するために、BioBERT、SciBERT、ChatGPTといった現代言語モデルは、膨大なドメイン内医療コーパスで訓練されている。本稿では、そのようなドメイン固有の事前学習に頼ることなく、モデルにドメイン知識を注入するためのリソース効率のよいアプローチを提案する。
論文参考訳（メタデータ） (2024-01-15T21:43:46Z)
Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文参考訳（メタデータ） (2023-02-06T08:11:16Z)
Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-03-25T14:33:33Z)
Cluster, Split, Fuse, and Update: Meta-Learning for Open Compound Domain Adaptive Semantic Segmentation [102.42638795864178]
セマンティックセグメンテーションのための原則的メタラーニングに基づくOCDAアプローチを提案する。対象ドメインを複数のサブターゲットドメインに,教師なしの方法で抽出した画像スタイルでクラスタリングする。その後、メタラーニングがデプロイされ、スタイルコードに条件付きでサブターゲットドメイン固有の予測を融合するように学習される。モデルに依存しないメタラーニング(MAML)アルゴリズムにより,モデルをオンライン更新することを学び,一般化をさらに改善する。
論文参考訳（メタデータ） (2020-12-15T13:21:54Z)
Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文参考訳（メタデータ） (2020-06-23T14:47:41Z)
Learning Meta Face Recognition in Unseen Domains [74.69681594452125]
メタ顔認識(MFR)というメタラーニングを用いた新しい顔認識手法を提案する。 MFRは、メタ最適化目標を用いてソース/ターゲットドメインシフトを合成する。一般化顔認識評価のためのベンチマークを2つ提案する。
論文参考訳（メタデータ） (2020-03-17T14:10:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。