論文の概要: Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models
- arxiv url: http://arxiv.org/abs/2506.11116v1
- Date: Mon, 09 Jun 2025 06:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.477964
- Title: Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models
- Title(参考訳): Infinity Instruct: 言語モデル構築のための命令選択と合成のスケーリング
- Authors: Jijie Li, Li Du, Hanyu Zhao, Bo-wen Zhang, Liangdong Wang, Boyan Gao, Guang Liu, Yonghua Lin,
- Abstract要約: Infinity-Instructは、大規模言語モデルの基本機能とチャット機能の両方を強化するために設計された高品質な命令データセットである。
我々は、Mistral、LLaMA、Qwen、Yiなどのオープンソースモデルを微調整して、Infinity-Instructを実証的に評価し、基礎的および命令的ベンチマークの両方でかなりの性能向上を観察する。
- 参考スコア(独自算出の注目度): 14.927052028174744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate strong performance in real-world applications, yet existing open-source instruction datasets often concentrate on narrow domains, such as mathematics or coding, limiting generalization and widening the gap with proprietary models. To bridge this gap, we introduce Infinity-Instruct, a high-quality instruction dataset designed to enhance both foundational and chat capabilities of LLMs through a two-phase pipeline. In Phase 1, we curate 7.4M high-quality foundational instructions (InfInstruct-F-7.4M) from over 100M samples using hybrid data selection techniques. In Phase 2, we synthesize 1.5M high-quality chat instructions (InfInstruct-G-1.5M) through a two-stage process involving instruction selection, evolution, and diagnostic filtering. We empirically evaluate Infinity-Instruct by fine-tuning several open-source models, including Mistral, LLaMA, Qwen, and Yi, and observe substantial performance gains across both foundational and instruction following benchmarks, consistently surpassing official instruction-tuned counterparts. Notably, InfInstruct-LLaMA3.1-70B outperforms GPT-4-0314 by 8.6\% on instruction following tasks while achieving comparable foundational performance. These results underscore the synergy between foundational and chat training and offer new insights into holistic LLM development. Our dataset\footnote{https://huggingface.co/datasets/BAAI/Infinity-Instruct} and codes\footnote{https://gitee.com/li-touch/infinity-instruct} have been publicly released.
- Abstract(参考訳): LLM(Large Language Models)は、現実世界のアプリケーションにおいて強力なパフォーマンスを示すが、既存のオープンソース命令データセットは、数学やコーディングのような狭い領域に集中し、一般化を制限し、プロプライエタリなモデルとのギャップを広げる。
このギャップを埋めるために,2相パイプラインによるLLMの基礎的およびチャット機能の向上を目的とした高品質な命令データセットであるInfinity-Instructを導入する。
フェーズ1では、ハイブリッドデータ選択技術を用いて、1億以上のサンプルから7.4Mの高品質基礎命令(InfInstruct-F-7.4M)をキュレートする。
フェーズ2では、命令選択、進化、診断フィルタリングを含む2段階のプロセスにより、1.5Mの高品質なチャット命令(InfInstruct-G-1.5M)を合成する。
我々は、Mistral、LLaMA、Qwen、Yiなどのオープンソースのモデルを微調整して、Infinity-Instructを実証的に評価し、基礎的および命令的ベンチマークの双方でかなりの性能向上を観測し、公式の命令指定モデルに一貫して上回っている。
特に、InfInstruct-LLaMA3.1-70BはGPT-4-0314よりも8.6\%向上し、基礎性能は同等である。
これらの結果は、基礎学習とチャットトレーニングの相乗効果を強調し、全体的LLM開発に関する新たな洞察を提供する。
私たちのデータセット\footnote{https://huggingface.co/datasets/BAAI/Infinity-Instruct} と codes\footnote{https://gitee.com/li-touch/infinity-Instruct} が公開されています。
関連論文リスト
- MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。
提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文 参考訳(メタデータ) (2024-07-22T17:55:22Z) - MAmmoTH2: Scaling Instructions from the Web [39.786198452175505]
そこで本研究では,学習前のWebコーパスから,1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。
我々はMAmmoTH2モデルを構築し、推論ベンチマークの性能を大幅に向上させた。
さらに、パブリックインストラクションチューニングデータセット上でMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2024-05-06T15:11:38Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。