論文の概要: Diagnosing Capability Gaps in Fine-Tuning Data
- arxiv url: http://arxiv.org/abs/2604.27547v1
- Date: Thu, 30 Apr 2026 07:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.978482
- Title: Diagnosing Capability Gaps in Fine-Tuning Data
- Title(参考訳): 微調整データにおける機能ギャップの診断
- Authors: Saeid Asgari Taghanaki, Rakshanda Agarwal, Bruce Sun, Rohan Jha, Elias Stengel-Eskin, Sara Malvar, Rui Ying, Yifei Xu, Guilherme Potje, Tusher Chakraborty, Leonardo de Oliveira Nunes, Ranveer Chandra, Emre Kiciman,
- Abstract要約: GoalCoverは、実践者が微調整データセットの能力ギャップを検出するのを支援するフレームワークである。
GoalCoverは、ハイレベルな目標を原子的に独立して評価可能なサブゴールに構造化した分解を通じて実践者を導く。
GoalCoverは、ターゲット外の能力への影響を確実に区別する。
- 参考スコア(独自算出の注目度): 24.893074850115394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models (LLMs) for domain-specific tasks requires training datasets that comprehensively cover the target capabilities a practitioner needs. Yet identifying which capabilities a dataset fails to support, and doing so before an expensive fine-tuning run, remains a largely unsolved problem. We introduce GoalCover, a framework that helps practitioners systematically detect capability gaps in fine-tuning datasets through interactive goal decomposition and automated coverage assessment. GoalCover guides a practitioner through structured decomposition of a high-level goal into atomic, independently evaluable subgoals; assigns each training sample an LLM-based alignment score against every subgoal; and surfaces missing capabilities through automated analysis of low-scoring sample explanations. We validate the framework along two complementary axes. First, through controlled corruption experiments across three domains (medical QA, legal summarization, code generation), we show that GoalCover reliably distinguishes targeted from non-targeted capability impacts: target subgoals degrade by 25.6% on average versus 2.1% for non-target subgoals (Cohen's d=1.24). Second, we demonstrate downstream utility on a financial-summarization Reinforcement Fine-Tuning (RFT) task with Qwen-3-14B: training on GoalCover-filtered data improves the LLM-judge reward from 3.77 to 4.12 (out of 5) over the unfiltered baseline, and combining filtered data with goal-conditioned synthetic samples yields the strongest result (4.20). The two results together show that GoalCover works as a practical pre-fine-tuning diagnostic: it detects capability gaps and produces concrete signal for closing them.
- Abstract(参考訳): ドメイン固有のタスクのための微調整された大きな言語モデル(LLM)には、実践者が必要とするターゲット能力を包括的にカバーするトレーニングデータセットが必要です。
しかし、データセットがサポートできない機能を特定し、高価な微調整実行の前にそれを実行することは、ほとんど未解決の問題である。
GoalCoverは,対話的な目標分解と自動カバレッジアセスメントを通じて,微調整データセットの能力ギャップを体系的に検出するフレームワークである。
GoalCoverは、ハイレベルな目標を原子的に独立して評価可能なサブゴールに構造化分解し、各トレーニングサンプルにLLMベースのアライメントスコアを各サブゴールに対して割り当てる。
フレームワークを2つの相補的軸に沿って検証する。
まず、3つの領域(医学的QA、法的な要約、コード生成)にわたる制御された汚職実験を通じて、GoalCoverは、目標とする非目標能力の影響から、目標とするサブゴールが平均25.6%減少するのに対して、目標とするサブゴールは2.1%減少する(Cohen's d=1.24)。
第2に,Qwen-3-14Bを用いたファイナンシャルサマー化強化細調整(RFT)タスクにおける下流ユーティリティを実証する: GoalCover-filteredデータによるトレーニングは,未フィルタリングベースライン上でのLLM-judge報酬を3.77から4.12(5点中)に改善し,目標条件の合成サンプルとフィルタデータを組み合わせることで,最も優れた結果(4.20)が得られる。
2つの結果は、GoalCoverが実際に調整済みの診断として機能し、能力のギャップを検出し、それを閉じるための具体的な信号を生成することを示している。
関連論文リスト
- From Insight to Action: A Novel Framework for Interpretability-Guided Data Selection in Large Language Models [73.72877445629383]
Interpretability-Guided Data Selection (IGDS) は、まず周波数リコールと干渉フィルタリングによって因果タスクの特徴を識別するフレームワークである。
我々は,数学的推論,要約,翻訳タスクに関するIGDSをGemma-2,LLaMA-3.1,Qwen3モデルで検証する。
論文 参考訳(メタデータ) (2026-04-28T03:16:24Z) - When Benchmarks Lie: Evaluating Malicious Prompt Classifiers Under True Distribution Shift [0.0]
有害なリクエスト、ジェイルブレイク、間接的なプロンプトインジェクション、抽出攻撃にまたがる18のデータセットのベンチマークを用いて、包括的な分析を行う。
我々は,真のアウト・オブ・ディストリビューションの一般化を評価するために,LODO(Leave-One-Dataset-Out)評価を提案する。
論文 参考訳(メタデータ) (2026-02-15T14:21:43Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - A Vision-Language Pre-training Model-Guided Approach for Mitigating Backdoor Attacks in Federated Learning [43.847168319564844]
視覚言語事前学習モデルのゼロショット学習機能を利用したFLバックドアディフェンスフレームワークCLIP-Fedを提案する。
本計画では, 防衛効果に課される非IIDの限界を克服し, 事前集約・後防衛戦略を統合する。
論文 参考訳(メタデータ) (2025-08-14T03:39:54Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Source-Free Progressive Graph Learning for Open-Set Domain Adaptation [44.63301903324783]
オープンセットドメイン適応(OSDA)は多くの視覚認識タスクで注目されている。
目的仮説空間を共有空間と未知の部分空間に分解するプログレッシブグラフ学習(PGL)フレームワークを提案する。
また、ソースとターゲットドメインの共存を前提としない、より現実的なオープンソースフリーなオープンセットドメイン適応(SF-OSDA)に取り組みます。
論文 参考訳(メタデータ) (2022-02-13T01:19:41Z) - Assessing Data Efficiency in Task-Oriented Semantic Parsing [54.87705549021248]
我々は、ある品質バーを達成するのに、ドメイン内の「ターゲット」データがどれだけ必要であるかを近似した4段階のプロトコルを導入する。
我々は,タスク指向セマンティック解析の実践者に対して,その柔軟性と適用性を示す実世界の2つのケーススタディに適用する。
論文 参考訳(メタデータ) (2021-07-10T02:43:16Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。