Fugu-MT 論文翻訳(概要): Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric

論文の概要: Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric

arxiv url: http://arxiv.org/abs/2502.17184v2
Date: Tue, 25 Feb 2025 06:56:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 13:17:50.590752
Title: Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric
Title（参考訳）: インストラクションチューニングのためのデータ多様性の測定:システム分析と信頼性メトリクス
Authors: Yuming Yang, Yang Nan, Junjie Ye, Shihan Dou, Xiao Wang, Shuo Li, Huijie Lv, Tao Gui, Qi Zhang, Xuanjing Huang,
Abstract要約: サンプルレベルの「ノーベルティ」に基づく新しい多様性指標を提案する。我々は,NovellSumが精度よく多様性の変動を捉え,命令調整モデルの性能と0.97の相関性が得られることを示す。
参考スコア（独自算出の注目度）: 49.05545527588855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data diversity is crucial for the instruction tuning of large language models. Existing studies have explored various diversity-aware data selection methods to construct high-quality datasets and enhance model performance. However, the fundamental problem of precisely defining and measuring data diversity remains underexplored, limiting clear guidance for data engineering. To address this, we systematically analyze 11 existing diversity measurement methods by evaluating their correlation with model performance through extensive fine-tuning experiments. Our results indicate that a reliable diversity measure should properly account for both inter-sample differences and the information distribution in the sample space. Building on this, we propose NovelSum, a new diversity metric based on sample-level "novelty." Experiments on both simulated and real-world data show that NovelSum accurately captures diversity variations and achieves a 0.97 correlation with instruction-tuned model performance, highlighting its value in guiding data engineering practices. With NovelSum as an optimization objective, we further develop a greedy, diversity-oriented data selection strategy that outperforms existing approaches, validating both the effectiveness and practical significance of our metric.
Abstract（参考訳）: 大規模言語モデルの命令チューニングには,データの多様性が不可欠である。既存の研究では、高品質なデータセットを構築し、モデル性能を向上させるために、様々な多様性に配慮したデータ選択方法が検討されている。しかし、データの多様性を正確に定義し、測定する根本的な問題は未解決のままであり、データエンジニアリングの明確なガイダンスは限られている。そこで本研究では,11種類の既存多様性測定手法を,広範囲な微調整実験により,モデル性能との相関性を評価することによって系統的に解析する。以上の結果から,信頼性のある多様性尺度は,サンプル空間におけるサンプル間差と情報分布の両方を適切に考慮すべきであることが示唆された。そこで本研究では,サンプルレベルの「ノーベルティ」に基づく新しい多様性指標であるNovellSumを提案する。シミュレーションデータと実世界のデータの両方の実験から、NovellSumは多様性の変動を正確に捉え、命令調整されたモデルのパフォーマンスと0.97の相関を達成し、データエンジニアリングの実践を導く上での価値を強調している。ノベルサムを最適化の目的とし、既存の手法よりも優れた多様性指向のデータ選択戦略をさらに発展させ、我々のメトリクスの有効性と実用性の両方を検証した。

関連論文リスト

Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs [39.84010804274527]
本稿では、解釈可能な機能空間におけるデータの多様性を測定する機能活性化カバレッジ(FAC)を紹介する。この指標に基づいて,FAC合成という多様性駆動型データ合成フレームワークを提案する。実験により,本手法は様々なタスクにおけるデータ多様性とダウンストリーム性能の両方を一貫して改善することが示された。
論文参考訳（メタデータ） (2026-02-11T00:23:13Z)
Linguistic and Argument Diversity in Synthetic Data for Function-Calling Agents [5.105255387565864]
本稿では,クエリと引数の両方にわたる汎用的な多様性指標を用いて,合成データセットを生成する手法を提案する。多様性の観点からは、ベースラインよりも優位性を示しながら、同等の正しさを維持しています。同様のベンチマークに比べてBFCLベンチマークでは7.4%の精度向上を実現しています。
論文参考訳（メタデータ） (2026-01-25T13:20:33Z)
FedGPS: Statistical Rectification Against Data Heterogeneity in Federated Learning [103.45987800174724]
フェデレートラーニング(FL)は、データ不均一(data heterogeneity)として知られる重要な課題に直面し、モデルの性能と収束を損なう。統計分布と勾配情報をシームレスに統合する新しいフレームワークである textbfFedGPS を提案する。
論文参考訳（メタデータ） (2025-10-23T06:10:11Z)
Multimodal-Guided Dynamic Dataset Pruning for Robust and Efficient Data-Centric Learning [49.10890099624699]
本稿では,タスク駆動の難易度とモダリティ間のセマンティクスの整合性に基づいて,トレーニングサンプルを適応的に選択する動的データセット解析フレームワークを提案する。私たちの研究は、堅牢なサンプル選択のためのモダリティアライメントの統合の可能性を強調し、アプリケーションドメイン全体のより効率的で堅牢なプラクティスに向けて、データ中心の学習を進めています。
論文参考訳（メタデータ） (2025-07-17T03:08:26Z)
Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文参考訳（メタデータ） (2025-04-16T23:02:23Z)
DUAL: Diversity and Uncertainty Active Learning for Text Summarization [5.877045865753598]
本稿では,不確実性と多様性を組み合わせた新しいアルゴリズムであるDiversity and Uncertainty Active Learning(DUAL)を提案する。我々は、UALがテキスト要約における最高の実行戦略を一貫して一致または上回ることを示す。
論文参考訳（メタデータ） (2025-03-02T12:06:16Z)
Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [36.277423093218275]
大規模言語モデル(LLM)の全体的な能力向上におけるデータ多様性の役割について検討する。本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文参考訳（メタデータ） (2025-02-05T17:21:01Z)
Exploring the Efficacy of Meta-Learning: Unveiling Superior Data Diversity Utilization of MAML Over Pre-training [1.3980986259786223]
データセットの多様性が視覚モデルの性能に影響を及ぼすことを示す。本研究は,テストセットの精度とデータの多様性との間に正の相関関係を示す。これらの結果は我々の仮説を支持し、形式的なデータの多様性がモデルの性能にどのように影響するかをより深く探究するための有望な方法を示す。
論文参考訳（メタデータ） (2025-01-15T00:56:59Z)
On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文参考訳（メタデータ） (2024-10-19T22:14:07Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文参考訳（メタデータ） (2024-05-15T11:58:08Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Active Learning in Genetic Programming: Guiding Efficient Data Collection for Symbolic Regression [2.4633342801625213]
本稿では,遺伝的プログラミングにおける能動的学習のための不確実性と多様性の計算方法について検討する。遺伝的プログラミングにおけるモデル個体群は、不確実性指標と組み合わせたモデルアンサンブルを用いて、情報的訓練データポイントを選択するために利用することができることがわかった。
論文参考訳（メタデータ） (2023-07-31T14:37:20Z)
Multi-Task Learning with Summary Statistics [4.871473117968554]
様々な情報源からの要約統計を利用した柔軟なマルチタスク学習フレームワークを提案する。また,Lepskiの手法の変種に基づく適応パラメータ選択手法を提案する。この研究は、さまざまな領域にわたる関連するモデルをトレーニングするための、より柔軟なツールを提供する。
論文参考訳（メタデータ） (2023-07-05T15:55:23Z)
Implicit Data Augmentation Using Feature Interpolation for Diversified Low-Shot Image Generation [11.4559888429977]
生成モデルのトレーニングは、低データ設定で容易に発散することができる。そこで本研究では,安定したトレーニングと多様なサンプルの合成を容易にする,新しい暗黙的データ拡張手法を提案する。
論文参考訳（メタデータ） (2021-12-04T23:55:46Z)
How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文参考訳（メタデータ） (2021-02-17T18:25:30Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)
Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文参考訳（メタデータ） (2020-03-10T03:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。