論文の概要: InsBank: Evolving Instruction Subset for Ongoing Alignment
- arxiv url: http://arxiv.org/abs/2502.11419v1
- Date: Mon, 17 Feb 2025 04:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:38.293902
- Title: InsBank: Evolving Instruction Subset for Ongoing Alignment
- Title(参考訳): インスバンク:アライメント継続のためのインストラクション・サブセットを進化させる
- Authors: Jiayi Shi, Yiwei Li, Shaoxiong Feng, Peiwen Yuan, Xinglin Wang, Yueqi Zhang, Chuyi Tan, Boyuan Pan, Huan Ren, Yao Hu, Kan Li,
- Abstract要約: 大規模言語モデル (LLM) は通常、アライメントを強化するために命令チューニングを行う。
新しい命令データの開発とともに、選択したサブセットをどのように進化させるかは、まだ十分に調査されていない。
InsBankは最新の価値あるインストラクションデータを統合したリポジトリだ。
PIBEはInsBankを効果的かつ効率的に進化させるように設計された新しいフレームワークである。
- 参考スコア(独自算出の注目度): 19.315185543349962
- License:
- Abstract: Large language models (LLMs) typically undergo instruction tuning to enhance alignment. Recent studies emphasize that quality and diversity of instruction data are more crucial than quantity, highlighting the need to select diverse, high-quality subsets to reduce training costs. However, how to evolve these selected subsets alongside the development of new instruction data remains insufficiently explored. To achieve LLMs' ongoing alignment, we introduce Instruction Bank (InsBank), a continuously updated repository that integrates the latest valuable instruction data. We further propose Progressive Instruction Bank Evolution (PIBE), a novel framework designed to evolve InsBank effectively and efficiently over time. PIBE employs a gradual data selection strategy to maintain long-term efficiency, leveraging a representation-based diversity score to capture relationships between data points and retain historical information for comprehensive diversity evaluation. This also allows for flexible combination of diversity and quality scores during data selection and ranking. Extensive experiments demonstrate that PIBE significantly outperforms baselines in InsBank evolution and is able to extract budget-specific subsets, demonstrating its effectiveness and adaptability.
- Abstract(参考訳): 大規模言語モデル (LLM) は通常、アライメントを強化するために命令チューニングを行う。
近年の研究では、教育データの品質と多様性は量よりも重要であり、訓練コストを削減するために、多種多様な高品質なサブセットを選択する必要があることが強調されている。
しかし、これらの選択されたサブセットを新しい命令データの開発とともにどのように進化させるかは、まだ十分に調査されていない。
LLMの継続的なアライメントを実現するために,最新の価値あるインストラクションデータを統合する継続的に更新されたレポジトリであるインストラクションバンク(Instruction Bank, InsBank)を導入する。
さらに,InsBankを効果的かつ効率的に進化させる新しいフレームワークPIBEを提案する。
PIBEは、長期的効率を維持するために段階的なデータ選択戦略を採用し、表現に基づく多様性スコアを利用して、データポイント間の関係を捉え、履歴情報を総合的な多様性評価のために保持する。
これにより、データのセレクションとランキングにおいて、多様性と品質スコアの柔軟な組み合わせが可能になる。
大規模な実験では、PIBEはInsBankの進化のベースラインを著しく上回り、予算固有のサブセットを抽出し、その有効性と適応性を示す。
関連論文リスト
- Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:34:33Z) - Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - Data Diversity Matters for Robust Instruction Tuning [129.83575908023312]
近年の研究では、高品質で多様な命令チューニングデータセットをキュレートすることにより、命令追従能力を大幅に改善できることが示されている。
データセットの多様性と品質を制御できる新しいアルゴリズムQDIT(Quality-Diversity Instruction Tuning)を提案する。
いくつかの大規模命令チューニングデータセット上でのQDITの性能を検証した結果、最悪のケースと平均ケースのパフォーマンスを大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2023-11-21T19:12:18Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Diversity-Aware Batch Active Learning for Dependency Parsing [12.579809393060858]
DPPで多種多様なバッチを選択することは、バッチの多様性を強制しない強い選択戦略よりも優れていることを示す。
我々の多様性意識戦略は、多様性に依存しないサンプリング戦略が著しい劣化を示すコーパス複製条件下で堅牢である。
論文 参考訳(メタデータ) (2021-04-28T18:00:05Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。