論文の概要: Low-Confidence Gold: Refining Low-Confidence Samples for Efficient Instruction Tuning
- arxiv url: http://arxiv.org/abs/2502.18978v3
- Date: Sat, 08 Mar 2025 09:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:43:58.022537
- Title: Low-Confidence Gold: Refining Low-Confidence Samples for Efficient Instruction Tuning
- Title(参考訳): 低信頼金: 効率的なインストラクションチューニングのための低信頼サンプルの精錬
- Authors: Hongyi Cai, Jie Li, Wenzhen Dong,
- Abstract要約: 低信頼金(Low-Confidence Gold、LCG)は、セントロイドベースのクラスタリングと信頼誘導選択を利用する新しいフィルタリングフレームワークである。
LCGはデータの多様性を維持しながら高品質なサブセットをキュレートする。
6KサンプルのLCGフィルタサブセットを微調整したモデルでは,既存手法と比較して優れた性能が得られる。
- 参考スコア(独自算出の注目度): 4.24565587746027
- License:
- Abstract: The effectiveness of instruction fine-tuning for Large Language Models is fundamentally constrained by the quality and efficiency of training datasets. This work introduces Low-Confidence Gold (LCG), a novel filtering framework that employs centroid-based clustering and confidence-guided selection for identifying valuable instruction pairs. Through a semi-supervised approach using a lightweight classifier trained on representative samples, LCG curates high-quality subsets while preserving data diversity. Experimental evaluation demonstrates that models fine-tuned on LCG-filtered subsets of 6K samples achieve superior performance compared to existing methods, with substantial improvements on MT-bench and consistent gains across comprehensive evaluation metrics. The framework's efficacy while maintaining model performance establishes a promising direction for efficient instruction tuning.
- Abstract(参考訳): 大規模言語モデルに対する命令の微調整の有効性は、訓練データセットの品質と効率に大きく制約されている。
この研究は、Centroidベースのクラスタリングと信頼誘導選択を利用して、貴重な命令ペアを識別する新しいフィルタリングフレームワークであるLow-Confidence Gold (LCG)を紹介する。
代表サンプルに基づいて訓練された軽量分類器を用いた半教師付きアプローチにより、LCGはデータの多様性を維持しながら高品質なサブセットをキュレートする。
実験により,6KサンプルのLCGフィルタサブセットを微調整したモデルでは,MTベンチの精度向上と総合評価指標間の一貫した利得向上が得られた。
モデル性能を維持しながらのフレームワークの有効性は、効率的な命令チューニングのための有望な方向を確立する。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Self-DenseMobileNet: A Robust Framework for Lung Nodule Classification using Self-ONN and Stacking-based Meta-Classifier [1.2300841481611335]
Self-DenseMobileNetは胸部X線写真(CXR)における結節と非結節の分類を強化するように設計されている
我々のフレームワークは、入力品質を最適化するために高度な画像標準化と拡張技術を統合している。
外部データセットでテストすると、このフレームワークは89.40%の精度で強力な一般化性を維持した。
論文 参考訳(メタデータ) (2024-10-16T14:04:06Z) - Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
特に,本手法は,評価を統一グラフに集約し,デノナイジングプロセスを適用する2つの主要な段階から構成される。
我々は,本枠組みの理論的保証を行い,真理優先構造を回復する上での有効性を示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - ESimCSE Unsupervised Contrastive Learning Jointly with UDA
Semi-Supervised Learning for Large Label System Text Classification Mode [4.708633772366381]
ESimCSEモデルは、ラベルのないデータを用いてテキストベクトル表現を効率よく学習し、より良い分類結果を得る。
UDAは、モデルと安定性の予測性能を改善するために、半教師付き学習手法を通じてラベルのないデータを用いて訓練される。
FGMとPGDは、モデルの堅牢性と信頼性を向上させるために、モデルトレーニングプロセスで使用される。
論文 参考訳(メタデータ) (2023-04-19T03:44:23Z) - ENInst: Enhancing Weakly-supervised Low-shot Instance Segmentation [23.621454800084724]
我々は,新しいクラスを効果的に扱うためのアノテーション効率のよい訓練手法である,弱教師付きローショットインスタンスセグメンテーションに対処する。
私たちのENInstは、既存の完全に教師されたいくつかのショットモデルに匹敵するパフォーマンスを達成する上で、7.5倍の効率を実現しています。
論文 参考訳(メタデータ) (2023-02-20T05:15:23Z) - ST-CoNAL: Consistency-Based Acquisition Criterion Using Temporal
Self-Ensemble for Active Learning [7.94190631530826]
トレーニングプロセスの効率を最大化するためには、アクティブラーニング(AL)がますます重要になっている。
学生教師の一貫性に基づくALアルゴリズム(ST-CoNAL)を提案する。
CIFAR-10、CIFAR-100、Caltech-256、Tiny ImageNetの画像分類タスクに対して行われた実験は、提案したSTCoNALが既存の取得方法よりも大幅に優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-05T17:25:59Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。