Fugu-MT 論文翻訳(概要): Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models

論文の概要: Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models

arxiv url: http://arxiv.org/abs/2506.11116v1
Date: Mon, 09 Jun 2025 06:37:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-16 17:50:49.477964
Title: Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models
Title（参考訳）: Infinity Instruct: 言語モデル構築のための命令選択と合成のスケーリング
Authors: Jijie Li, Li Du, Hanyu Zhao, Bo-wen Zhang, Liangdong Wang, Boyan Gao, Guang Liu, Yonghua Lin,
Abstract要約: Infinity-Instructは、大規模言語モデルの基本機能とチャット機能の両方を強化するために設計された高品質な命令データセットである。我々は、Mistral、LLaMA、Qwen、Yiなどのオープンソースモデルを微調整して、Infinity-Instructを実証的に評価し、基礎的および命令的ベンチマークの両方でかなりの性能向上を観察する。
参考スコア（独自算出の注目度）: 14.927052028174744
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) demonstrate strong performance in real-world applications, yet existing open-source instruction datasets often concentrate on narrow domains, such as mathematics or coding, limiting generalization and widening the gap with proprietary models. To bridge this gap, we introduce Infinity-Instruct, a high-quality instruction dataset designed to enhance both foundational and chat capabilities of LLMs through a two-phase pipeline. In Phase 1, we curate 7.4M high-quality foundational instructions (InfInstruct-F-7.4M) from over 100M samples using hybrid data selection techniques. In Phase 2, we synthesize 1.5M high-quality chat instructions (InfInstruct-G-1.5M) through a two-stage process involving instruction selection, evolution, and diagnostic filtering. We empirically evaluate Infinity-Instruct by fine-tuning several open-source models, including Mistral, LLaMA, Qwen, and Yi, and observe substantial performance gains across both foundational and instruction following benchmarks, consistently surpassing official instruction-tuned counterparts. Notably, InfInstruct-LLaMA3.1-70B outperforms GPT-4-0314 by 8.6\% on instruction following tasks while achieving comparable foundational performance. These results underscore the synergy between foundational and chat training and offer new insights into holistic LLM development. Our dataset\footnote{https://huggingface.co/datasets/BAAI/Infinity-Instruct} and codes\footnote{https://gitee.com/li-touch/infinity-instruct} have been publicly released.
Abstract（参考訳）: LLM(Large Language Models)は、現実世界のアプリケーションにおいて強力なパフォーマンスを示すが、既存のオープンソース命令データセットは、数学やコーディングのような狭い領域に集中し、一般化を制限し、プロプライエタリなモデルとのギャップを広げる。このギャップを埋めるために,2相パイプラインによるLLMの基礎的およびチャット機能の向上を目的とした高品質な命令データセットであるInfinity-Instructを導入する。フェーズ1では、ハイブリッドデータ選択技術を用いて、1億以上のサンプルから7.4Mの高品質基礎命令(InfInstruct-F-7.4M)をキュレートする。フェーズ2では、命令選択、進化、診断フィルタリングを含む2段階のプロセスにより、1.5Mの高品質なチャット命令(InfInstruct-G-1.5M)を合成する。我々は、Mistral、LLaMA、Qwen、Yiなどのオープンソースのモデルを微調整して、Infinity-Instructを実証的に評価し、基礎的および命令的ベンチマークの双方でかなりの性能向上を観測し、公式の命令指定モデルに一貫して上回っている。特に、InfInstruct-LLaMA3.1-70BはGPT-4-0314よりも8.6\%向上し、基礎性能は同等である。これらの結果は、基礎学習とチャットトレーニングの相乗効果を強調し、全体的LLM開発に関する新たな洞察を提供する。私たちのデータセット\footnote{https://huggingface.co/datasets/BAAI/Infinity-Instruct} と codes\footnote{https://gitee.com/li-touch/infinity-Instruct} が公開されています。

関連論文リスト

CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks [57.482238100217195]
合成データ生成手法CoT-Self-Instructを提案する。検証可能な推論において、我々の合成データはs1kやOpenMathReasoningといった既存のトレーニングデータセットよりも大幅に優れています。検証不能な命令追従タスクに対しては、AlpacaEval 2.0とArena-Hardの両方で、人間または標準の自己指示プロンプトの性能を上回ります。
論文参考訳（メタデータ） (2025-07-31T17:38:50Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
Comparative Analysis of Large Language Models for Context-Aware Code Completion using SAFIM Framework [5.312946761836463]
大規模言語モデル(LLM)はコード補完に革命をもたらし、よりインテリジェントでコンテキスト対応な機能へと変貌を遂げた。本稿では,Gemini 1.5 Flash, Gemini 1.5 Pro, GPT-4o, GPT-4o-mini, GPT-4 Turboなど,チャットベースのLLMの性能を評価する。
論文参考訳（メタデータ） (2025-02-21T06:32:31Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文参考訳（メタデータ） (2024-07-22T17:55:22Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
MAmmoTH2: Scaling Instructions from the Web [39.786198452175505]
そこで本研究では,学習前のWebコーパスから,1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。我々はMAmmoTH2モデルを構築し、推論ベンチマークの性能を大幅に向上させた。さらに、パブリックインストラクションチューニングデータセット上でMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、最先端のパフォーマンスが達成される。
論文参考訳（メタデータ） (2024-05-06T15:11:38Z)
Instruction Mining: Instruction Data Selection for Tuning Large Language Models [18.378654454336136]
InstructMiningは、大規模な言語モデルを微調整するためのプレミアムインストラクションフォローデータを自動的に選択するように設計されている。 InstructMining は LLM-as-a-judge と Huggingface OpenLLM の2つのベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-07-12T16:37:31Z)
Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文参考訳（メタデータ） (2023-02-22T17:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。