論文の概要: TACOS: Open Tagging and Comparative Scoring for Instruction Fine-Tuning Data Selection
- arxiv url: http://arxiv.org/abs/2507.03673v1
- Date: Fri, 04 Jul 2025 15:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.829652
- Title: TACOS: Open Tagging and Comparative Scoring for Instruction Fine-Tuning Data Selection
- Title(参考訳): TACOS: インストラクションファインチューニングデータ選択のためのオープンタグと比較スコア
- Authors: Xixiang He, Hao Yu, Qiyao Sun, Ao Cheng, Tailai Zhang, Cong Liu, Shuxuan Guo,
- Abstract要約: We present TACOS, a innovative method that integrates Open Tagging and Comparison Scoring for IFT data selection。
データの多様性を捉えるために、LLMを活用して、オープンドメインタグを人間のクエリに割り当てる。
本稿では,クラスタ内のサンプルの相対的品質評価を可能にする比較評価手法を提案する。
- 参考スコア(独自算出の注目度): 9.020110377060153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction Fine-Tuning (IFT) is crucial for aligning large language models (LLMs) with human preferences, and selecting a small yet representative subset from massive data significantly facilitates IFT in terms of both efficiency and effectiveness. Nevertheless, existing approaches suffer from two limitations: the use of simple heuristics restricts data diversity, while the singleton data quality evaluation accounts for inconsistent criteria between independent samples. To address the issues, we present TACOS, an innovative method that integrates Open Tagging and Comparative Scoring for IFT data selection. To capture data diversity, we leverage LLMs to assign open-domain tags to human queries, followed by a normalization stage to denoise the open tags and enable efficient clustering. Additionally, we suggest a comparative scoring method that allows the relative quality evaluation of samples within a cluster, avoiding inconsistent criteria seen in singleton-based evaluations. Extensive experiments across diverse datasets and LLM architectures demonstrate that TACOS outperforms existing approaches by a large margin. Notably, it achieves superior instruction-following performance on MT-Bench and ranks 1st among LLaMA2-7B-Based models on AlpacaEval 2.0, illustrating its efficacy for IFT data selection.
- Abstract(参考訳): インストラクションファインタニング(IFT)は,大規模言語モデル(LLM)と人間の嗜好を整合させる上で重要である。
単純なヒューリスティックスの使用はデータの多様性を制限し、シングルトンデータ品質評価は独立したサンプル間の矛盾した基準を考慮に入れている。
そこで本研究では,IFTデータ選択のためのOpen TaggingとComparent Scoringを統合した,革新的なTACOSを提案する。
データの多様性を捉えるために、LLMを活用して、オープンドメインタグを人間のクエリに割り当て、続いて正規化ステージを使用して、オープンタグを装飾し、効率的なクラスタリングを実現する。
さらに,クラスタ内のサンプルの相対的品質評価を可能にする比較評価手法を提案する。
多様なデータセットとLLMアーキテクチャにわたる大規模な実験は、TACOSが既存のアプローチよりも大きなマージンで優れていることを示している。
特に、MT-Bench上での命令追従性能は優れており、AlpacaEval 2.0上でのLLaMA2-7Bベースモデルの中では1位であり、IFTデータ選択の有効性を示している。
関連論文リスト
- Stratified Selective Sampling for Instruction Tuning with Dedicated Scoring Strategy [1.8666174950012007]
マルチステップパイプラインを使用することで、データ選択が効率的かつ普遍的に可能であることを示す。
タスクベースの分類を用いて最終データの構成を制御する。
この統合戦略は、最小限のオーバーヘッドで高性能な微調整を可能にする。
論文 参考訳(メタデータ) (2025-05-28T09:22:25Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [41.4789135538612]
本稿では,各サンプルの品質評価から,各サンプルのコントリビューション値の比較に焦点を移す,新しい選択型サンプル選択フレームワークを提案する。
LLM(Large Language Models)の高度な言語理解機能により,LLMを用いて選択過程における各オプションの価値を評価する。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Beyond QA Pairs: Assessing Parameter-Efficient Fine-Tuning for Fact Embedding in LLMs [0.0]
本稿では,質問応答対をFactualクラスとConceptualクラスに分類することで,微調整プロセスの改善に焦点をあてる。
2つの異なるLlama-2モデルはこれらの分類に基づいて微調整され、GPT-3.5 TurboやGeminiのような大型モデルを用いて評価される。
以上の結果から,概念データセットでトレーニングされたモデルは,実データセットでトレーニングしたモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-03-03T03:26:30Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Improving Model Evaluation using SMART Filtering of Benchmark Datasets [19.731378662304497]
本稿では,既存のベンチマークデータセットから高品質なサンプルのサブセットを選択する新しい手法を提案する。
提案手法は3つのフィルタリング基準を適用し, (i) 簡単な例, (ii) データ汚染例, (iii) 互いに類似した例を除去する。
SMARTの3つの選択QAデータセットに対する有効性を示す。
論文 参考訳(メタデータ) (2024-10-26T18:21:44Z) - Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。
半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。
本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T09:33:53Z) - Empowering HWNs with Efficient Data Labeling: A Clustered Federated
Semi-Supervised Learning Approach [2.046985601687158]
CFL(Clustered Federated Multitask Learning)は,統計的課題を克服するための効果的な戦略として注目されている。
本稿では,より現実的なHWNシナリオ用に設計された新しいフレームワークであるClustered Federated Semi-Supervised Learning (CFSL)を紹介する。
その結果,ラベル付きデータとラベル付きデータの比率が異なる場合,CFSLはテスト精度,ラベル付け精度,ラベル付け遅延などの重要な指標を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-01-19T11:47:49Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。