論文の概要: DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback
- arxiv url: http://arxiv.org/abs/2410.06215v1
- Date: Tue, 8 Oct 2024 17:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:31:16.300955
- Title: DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback
- Title(参考訳): DataEnvGym:学習者のフィードバックを伴う教師環境におけるデータ生成エージェント
- Authors: Zaid Khan, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal,
- Abstract要約: データ生成エージェントのための教師環境のテストベッドであるDataEnvGymを紹介する。
DataEnvGymはシーケンシャルな意思決定タスクとしてデータ生成をフレーム化する。
エージェントの目標は、生徒のパフォーマンスを改善することです。
我々は3つの多様なタスク(数学、コード、VQA)をサポートし、複数の学生と教師をテストする。
- 参考スコア(独自算出の注目度): 62.235925602004535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The process of creating training data to teach models is currently driven by humans, who manually analyze model weaknesses and plan how to create data that improves a student model. Recent approaches using LLMs as annotators reduce human effort, but still require humans to interpret feedback from evaluations and control the LLM to produce data the student needs. Automating this labor-intensive process by creating autonomous data generation agents - or teachers - is desirable, but requires environments that can simulate the feedback-driven, iterative, closed loop of data creation. To enable rapid and scalable testing for such agents and their modules, we introduce DataEnvGym, a testbed of teacher environments for data generation agents. DataEnvGym frames data generation as a sequential decision-making task, involving an agent consisting of a data generation policy (which generates a plan for creating training data) and a data generation engine (which transforms the plan into data), inside an environment that provides student feedback. The agent's goal is to improve student performance. Students are iteratively trained and evaluated on generated data, with their feedback (in the form of errors or weak skills) being reported to the agent after each iteration. DataEnvGym includes multiple teacher environment instantiations across 3 levels of structure in the state representation and action space. More structured environments are based on inferred skills and offer more interpretability and curriculum control. We support 3 diverse tasks (math, code, and VQA) and test multiple students and teachers. Example agents in our teaching environments can iteratively improve students across tasks and settings. Moreover, we show that environments teach different skill levels and test variants of key modules, pointing to future work in improving data generation agents, engines, and feedback mechanisms.
- Abstract(参考訳): モデルを教えるためのトレーニングデータを作成するプロセスは現在、モデルの弱点を手動で分析し、学生モデルを改善するデータを作成する方法を計画している人間によって進められている。
LLMをアノテータとして使用する最近のアプローチは、人間の労力を減らすが、それでも、評価からフィードバックを解釈し、学生が必要とするデータを生成するためにLLMを制御する必要がある。
自律的なデータ生成エージェント(あるいは教師)を作成することで、この労働集約的なプロセスを自動化することが望ましいが、フィードバック駆動、反復的、クローズドループのデータ生成をシミュレートできる環境が必要である。
このようなエージェントとそのモジュールの迅速かつスケーラブルなテストを可能にするために,データ生成エージェントのための教師環境のテストベッドであるDataEnvGymを紹介した。
DataEnvGymは、学生のフィードバックを提供する環境の中で、データ生成ポリシー(トレーニングデータを作成する計画を生成する)とデータ生成エンジン(プランをデータに変換する)で構成されるエージェントを含む、シーケンシャルな意思決定タスクとしてデータ生成をフレーム化する。
エージェントの目標は、学生のパフォーマンスを改善することです。
学生は、生成されたデータに基づいて反復的にトレーニングされ、評価され、各イテレーション後にエージェントにフィードバック(エラーや弱いスキルの形で)が報告される。
DataEnvGymには、状態表現とアクション空間における3つのレベルの構造にわたる複数の教師環境インスタンス化が含まれている。
より構造化された環境は推論されたスキルに基づいており、より解釈可能性とカリキュラム制御を提供する。
我々は3つの多様なタスク(数学、コード、VQA)をサポートし、複数の学生と教師をテストする。
教育環境における事例エージェントは,課題や設定を通じて,生徒を反復的に改善することができる。
さらに,本研究では,データ生成エージェント,エンジン,フィードバック機構の改善に向けた今後の取り組みを,各環境がキーモジュールの異なるスキルレベルとテストの変種を教えていることを示す。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Self-Regulated Data-Free Knowledge Amalgamation for Text Classification [9.169836450935724]
そこで我々は,複数の教師モデルから学習できる軽量な学生ネットワークを構築した。
そこで本研究では,各教師に適したテキストデータを生成するモデリングフレームワークSTRATANETを提案する。
本手法は,ラベルやドメインの異なる3つのベンチマークテキスト分類データセットを用いて評価する。
論文 参考訳(メタデータ) (2024-06-16T21:13:30Z) - GenQA: Generating Millions of Instructions from a Handful of Prompts [67.54980063851605]
ほとんどの公開命令微調整データセットは、業界モデルをトレーニングするために使用されるクローズドソースデータセットと比較して比較的小さい。
本研究では,1つのプロンプトから大規模命令データセットを生成する手法について検討する。
我々のデータセットは、知識集約型リーダーボードタスクと会話評価の両方で、WizardLMとUltrachatの両方に遭遇または超過します。
論文 参考訳(メタデータ) (2024-06-14T17:44:08Z) - Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。
しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。
本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文 参考訳(メタデータ) (2024-02-28T19:49:55Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Intermediate Training on Question Answering Datasets Improves Generative
Data Augmentation [32.83012699501051]
我々は、コンテキスト生成タスクとしてデータ生成を定式化することにより、生成データ拡張を改善する。
ダウンストリームタスクを質問応答形式に投入し、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。
少数ショット、ゼロショット設定で、パフォーマンスが大幅に改善されたことを実証します。
論文 参考訳(メタデータ) (2022-05-25T09:28:21Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。