論文の概要: SoftSRV: Learn to Generate Targeted Synthetic Data
- arxiv url: http://arxiv.org/abs/2410.16534v3
- Date: Tue, 04 Feb 2025 22:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 16:28:50.715149
- Title: SoftSRV: Learn to Generate Targeted Synthetic Data
- Title(参考訳): SoftSRV: ターゲットとする合成データの生成を学ぶ
- Authors: Giulia DeSalvo, Jean-Fracois Kagy, Lazaros Karydas, Afshin Rostamizadeh, Sanjiv Kumar,
- Abstract要約: 本稿では,タスク固有モデルを対象とした合成微調整データを生成するための新しいフレームワークであるSoftSRVを提案する。
We found that SoftSRV improve on typical prompt engineering approach, generated target data that led to fine-tuned model。
- 参考スコア(独自算出の注目度): 35.20014396557643
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a novel framework, SoftSRV, that is used to generate targeted synthetic fine-tuning data for improving task-specific model performance. Given a sample from a target distribution, our proposed framework uses a data-driven loss minimization approach to steer a frozen large language model (LLM) to generate synthetic sequences that are similar to those from the target distribution. SoftSRV provides a practical improvement over common prompt engineering approaches that rely on human-engineered prompt-templates, which can be idiosyncratic, labor-intensive to craft, and may need to be specialized per domain. We empirically evaluate our method against standard baselines guiding a large LLM to generate synthetic data to fine-tune a smaller language model on three different domains (coding, math, reasoning). We perform these evaluations without any particular specialization of the framework to each domain, emphasizing the generality of our approach. We find that SoftSRV improves upon typical prompt engineering approaches, generating targeted data that leads to fine-tuned models with significantly better task-specific performance. In addition, SoftSRV-generated data better matches the target distribution according to the MAUVE similarity metric.
- Abstract(参考訳): 本稿では,タスク固有のモデル性能を改善するために,対象とする合成微調整データを生成するための新しいフレームワークであるSoftSRVを提案する。
提案フレームワークは,対象分布からサンプルを抽出し,データ駆動型損失最小化手法を用いて,凍結した大言語モデル(LLM)を操り,対象分布から類似した合成シーケンスを生成する。
SoftSRVは、人間工学のプロンプトテンプレートに依存する一般的なプロンプトエンジニアリングアプローチよりも実践的な改善を提供する。
我々は,3つの異なるドメイン(コーディング,数学,推論)でより小さな言語モデルを微調整する合成データを生成するために,大規模なLLMを導く標準ベースラインに対して,我々の手法を実証的に評価した。
フレームワークを各ドメインに特化せずにこれらの評価を行い、アプローチの汎用性を強調します。
We found that SoftSRV improve on typical prompt engineering approach, generated target data that to to to to pull-tuned model with significantly better task-specific performance。
さらに、SoftSRVの生成したデータは、MAUVEの類似度測定値に従って、ターゲット分布とよりよく一致している。
関連論文リスト
- Enhancing Domain-Specific Encoder Models with LLM-Generated Data: How to Leverage Ontologies, and How to Do Without Them [9.952432291248954]
限られたデータを持つ領域におけるエンコーダモデルの連続事前学習におけるLLM生成データの利用について検討する。
侵入生物学における埋め込みモデルの性能を評価するためのベンチマークをコンパイルする。
提案手法は,小さなエンコーダモデルのドメイン固有理解を向上させるために,完全自動パイプラインを実現することを実証した。
論文 参考訳(メタデータ) (2025-03-27T21:51:24Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - RLS3: RL-Based Synthetic Sample Selection to Enhance Spatial Reasoning in Vision-Language Models for Indoor Autonomous Perception [20.01853641155509]
自然言語命令に基づくアプリケーション固有の視覚的グラウンドニングのための視覚言語モデル(VLM)は、学習可能な自律システムにおいて最も一般的なアプローチの1つである。
本稿では, 強化学習(RL)エージェントと統合することにより, VLMファインチューニングを改善するための新しい一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-31T04:30:42Z) - Leveraging Metamemory Mechanisms for Enhanced Data-Free Code Generation in LLMs [44.80420740455364]
M2WFは、大規模言語モデルのワンタイムコード生成を改善するためのフレームワークである。
従来の方法とは異なり、キュレートされたデータへの依存を最小限に抑え、さまざまなコーディングシナリオに適応する。
コードとフレームワークはGitHubとHuggingFaceで公開されている。
論文 参考訳(メタデータ) (2025-01-14T07:16:43Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Generating Synthetic Datasets for Few-shot Prompt Tuning [48.10054761841462]
数ショットの学習設定では、フルモデルの微調整よりもはるかに遅れて、アプリケーションのスコープが制限される。
本稿では,ソフトプロンプトを学習するために,強力なLCMを用いてタスク固有のラベル付きデータを合成する。
我々は、勾配手術アプローチを用いて、合成データセットと実データセットの両方でソフトプロンプトを訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:00:02Z) - Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。
我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。
本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-06-17T19:11:40Z) - Adapting LLMs for Efficient Context Processing through Soft Prompt Compression [1.1550486371582305]
本稿では,大規模言語モデルを合理化された文脈処理のために戦略的に調整する,革新的なフレームワークを提案する。
我々の手法はSoftPromptCompと呼ばれ、動的に生成されたソフトプロンプトで自然言語をアマルガメイトし、簡潔でセマンティックに頑健な文脈の描写をフォージする。
我々は,我々のフレームワークが計算オーバーヘッドを著しく減らし,LLMの有効性を様々なベンチマークで向上させることを実証した。
論文 参考訳(メタデータ) (2024-04-07T15:44:20Z) - Intent-based Prompt Calibration: Enhancing prompt optimization with
synthetic boundary cases [2.6159111710501506]
本稿では,ユーザ意図に対するプロンプトを反復的に洗練するキャリブレーションプロセスを用いて,自動プロンプトエンジニアリングの新しい手法を提案する。
我々は,モデレーションや生成といった現実的なタスクにおいて,強力なプロプライエタリなモデルに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-02-05T15:28:43Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Target-Aware Generative Augmentations for Single-Shot Adaptation [21.840653627684855]
我々は、ソースドメインからターゲットドメインへのモデル適応のための新しいアプローチを提案する。
SiSTAは、単一ショットターゲットを用いてソースドメインから生成モデルを微調整し、その後、合成ターゲットデータをキュレートするための新しいサンプリング戦略を用いる。
顔検出や多クラス物体認識において,SiSTAは既存のベースラインよりも大幅に向上していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T17:46:26Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。