Fugu-MT 論文翻訳(概要): AgentInstruct: Toward Generative Teaching with Agentic Flows

論文の概要: AgentInstruct: Toward Generative Teaching with Agentic Flows

arxiv url: http://arxiv.org/abs/2407.03502v1
Date: Wed, 3 Jul 2024 21:01:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 19:51:01.596583
Title: AgentInstruct: Toward Generative Teaching with Agentic Flows
Title（参考訳）: Agent Instruct: エージェントフローによる生成教育を目指して
Authors: Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah,
Abstract要約: 我々は、ポストトレーニングに合成データを使うこと、特に、他のモデルに新しいスキルや振る舞いを教えるために、強力なモデルでデータを作成することに重点を置いている。本稿では,多種多様な高品質な合成データを自動生成するエージェントフレームワークであるAgentInstructを紹介する。テキスト編集,創造的執筆,ツール使用,コーディング,理解の理解など,さまざまなスキルを学習するための,2500万対のポストトレーニングデータセットを作成することで,AgentInstructの有用性を実証する。
参考スコア（独自算出の注目度）: 12.192372792525726
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthetic data is becoming increasingly important for accelerating the development of language models, both large and small. Despite several successful use cases, researchers also raised concerns around model collapse and drawbacks of imitating other models. This discrepancy can be attributed to the fact that synthetic data varies in quality and diversity. Effective use of synthetic data usually requires significant human effort in curating the data. We focus on using synthetic data for post-training, specifically creating data by powerful models to teach a new skill or behavior to another model, we refer to this setting as Generative Teaching. We introduce AgentInstruct, an extensible agentic framework for automatically creating large amounts of diverse and high-quality synthetic data. AgentInstruct can create both the prompts and responses, using only raw data sources like text documents and code files as seeds. We demonstrate the utility of AgentInstruct by creating a post training dataset of 25M pairs to teach language models different skills, such as text editing, creative writing, tool usage, coding, reading comprehension, etc. The dataset can be used for instruction tuning of any base model. We post-train Mistral-7b with the data. When comparing the resulting model Orca-3 to Mistral-7b-Instruct (which uses the same base model), we observe significant improvements across many benchmarks. For example, 40% improvement on AGIEval, 19% improvement on MMLU, 54% improvement on GSM8K, 38% improvement on BBH and 45% improvement on AlpacaEval. Additionally, it consistently outperforms other models such as LLAMA-8B-instruct and GPT-3.5-turbo.
Abstract（参考訳）: 合成データは、大小を問わず、言語モデルの開発を加速する上で、ますます重要になりつつある。いくつかのユースケースが成功したにも拘わらず、研究者はモデル崩壊と他のモデルを模倣する欠点について懸念を提起した。この相違は、合成データが品質と多様性に異なるという事実に起因している。合成データの効果的な利用は通常、データのキュレーションに多大な人的努力を必要とする。ポストトレーニングに合成データを使うことに重点を置いており、特に強力なモデルによってデータを作成し、新しいスキルや振る舞いを他のモデルに教えることに重点を置いており、この設定を生成指導と呼ぶ。本稿では,多種多様な高品質な合成データを自動生成する拡張可能なエージェントフレームワークであるAgentInstructを紹介する。 AgentInstructは、テキストドキュメントやコードファイルなどの生のデータソースのみをシードとして、プロンプトとレスポンスの両方を作成することができる。テキスト編集,創造的執筆,ツール使用,コーディング,理解の理解など,さまざまなスキルを学習するための,2500万対のポストトレーニングデータセットを作成することで,AgentInstructの有用性を実証する。データセットは、任意のベースモデルのインストラクションチューニングに使用することができる。我々はデータを用いてMistral-7bの訓練を行った。 Orca-3をMistral-7b-Instruct(同じベースモデルを使っている)と比較すると、多くのベンチマークで大幅な改善が見られた。例えば、AGIEvalが40%、MMLUが19%、GSM8Kが54%、BBHが38%、AlpacaEvalが45%改善した。加えて、LLAMA-8BインストラクションやGPT-3.5-turboなど、他のモデルよりも一貫して優れている。

関連論文リスト

One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文参考訳（メタデータ） (2025-10-30T06:08:27Z)
MASTER: Enhancing Large Language Model via Multi-Agent Simulated Teaching [24.350821306196877]
MASTERは、認知レベルが異なる複数のエージェント間の相互作用を通じて、元のデータを豊かにする新しいデータ拡張手法である。私たちは、Orca-Math-200k、ProcQA、OpenHermes2.5といった既存のデータセットから強化された微調整データセットであるBOOST-QAを構築します。実験により、BOOST-QAで微調整されたモデルは、複数のベンチマークで優れた性能を示し、強力なマルチタスクの一般化を示す。
論文参考訳（メタデータ） (2025-06-03T09:41:35Z)
Improving Model Alignment Through Collective Intelligence of Open-Source LLMS [34.23134719050941]
モデルアライメントのための高品質なデータを提供するために,様々な言語モデルの集合的強みを活用するMOAAを導入する。その結果,アリーナ・ハードでは19.5から48.3,アルパカ・エスバル2では22.33から57.23に,LLaMA-3.1-8B-インストラクトでは勝利率を向上させることができた。
論文参考訳（メタデータ） (2025-05-05T22:40:23Z)
BARE: Combining Base and Instruction-Tuned Language Models for Better Synthetic Data Generation [71.46236155101032]
本研究では,ベースモデルの多様性とインストラクション学習モデルの品質を組み合わせた合成データ生成手法であるBase-Refineを提案する。 BARE生成データによる微調整は, GSM8Kの命令のみのデータよりも101%, RAFTのSOTA法より18.4%向上することを示す。
論文参考訳（メタデータ） (2025-02-03T00:12:40Z)
Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文参考訳（メタデータ） (2024-12-04T19:20:32Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Cookbook: A framework for improving LLM generative abilities via programmatic data generating templates [57.29125360837203]
Cookbookはランダムトークン上の単純なパターンからなるトレーニングデータを生成するフレームワークである。クックブック生成したデータの微調整により,対応するタスクの性能を最大52.7の精度で向上できることがわかった。
論文参考訳（メタデータ） (2024-10-07T17:29:40Z)
What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-09-03T13:30:00Z)
Leveraging Web-Crawled Data for High-Quality Fine-Tuning [24.19939701706869]
我々は、GPT-4のような先進的なモデルに頼ることなく、高品質な教師付き微調整のための貴重な情報源として、Webcrawled Dataが有効であると主張している。我々は、Webcrawledデータをより小さな高品質なデータ集合と整列させることで、ペア化されたトレーニングデータセットを自動生成する。実験の結果, モデル変換データを用いた学習は, 中国における数学問題の平均スコア9.4%で, 高品質なデータのみによるトレーニングを上回り, より良い結果が得られることがわかった。
論文参考訳（メタデータ） (2024-08-15T08:12:52Z)
Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-26T13:55:21Z)
Dynamics of Instruction Tuning: Each Ability of Large Language Models Has Its Own Growth Pace [21.015261553612643]
10の能力にまたがる40k以上のデータセットを提示し、7bから33bのパラメータを持つ命令調整モデルについて検討する。 i) モデル全体の性能がデータとパラメータスケールに結びついているにもかかわらず、個々の能力はこれらの要因に対して異なる感性を持っている。人為的なデータはGPT-4の合成データより効率が良く、容積の増加とともにモデル性能を常に向上させることができる。
論文参考訳（メタデータ） (2023-10-30T15:37:10Z)
TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文参考訳（メタデータ） (2023-10-27T03:32:17Z)
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文参考訳（メタデータ） (2023-06-07T19:59:23Z)
InPars: Data Augmentation for Information Retrieval using Large Language Models [5.851846467503597]
本研究では,大規模な事前学習型言語モデルの,情報検索タスクのための合成データ生成機能を利用する。我々は、教師なしデータセットのみに微調整されたモデルが、BM25のような強力なベースラインより優れていることを示す。教師付きデータと我々の合成データの両方に微調整されたレトリバーは、教師付きデータにのみ微調整されたモデルよりも優れたゼロショット転送を実現する。
論文参考訳（メタデータ） (2022-02-10T16:52:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。