論文の概要: Fine-tuning for Better Few Shot Prompting: An Empirical Comparison for Short Answer Grading
- arxiv url: http://arxiv.org/abs/2508.04063v1
- Date: Wed, 06 Aug 2025 03:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.536418
- Title: Fine-tuning for Better Few Shot Prompting: An Empirical Comparison for Short Answer Grading
- Title(参考訳): Few Shot Promptingの改良のためのファインチューニング : 短解像の実証的比較
- Authors: Joel Walsh, Siddarth Mamidanna, Benjamin Nye, Mark Core, Daniel Auerbach,
- Abstract要約: ファインチューニング手法は歴史的に多くのユーザにとってアクセス不能な大規模計算クラスタを必要としてきた。
OpenAIの微調整サービスのような新しいクローズドモデルアプローチは、100の例で結果をもたらす。
これら2つの微調整手法の評価を行い, 自動短時間解答グレーディングのための数ショットプロンプトとの相互作用を測定した。
- 参考スコア(独自算出の注目度): 0.5825410941577593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research to improve Automated Short Answer Grading has recently focused on Large Language Models (LLMs) with prompt engineering and no- or few-shot prompting to achieve best results. This is in contrast to the fine-tuning approach, which has historically required large-scale compute clusters inaccessible to most users. New closed-model approaches such as OpenAI's fine-tuning service promise results with as few as 100 examples, while methods using open weights such as quantized low-rank adaptive (QLORA) can be used to fine-tune models on consumer GPUs. We evaluate both of these fine-tuning methods, measuring their interaction with few-shot prompting for automated short answer grading (ASAG) with structured (JSON) outputs. Our results show that finetuning with small amounts of data has limited utility for Llama open-weight models, but that fine-tuning methods can outperform few-shot baseline instruction-tuned LLMs for OpenAI's closed models. While our evaluation set is limited, we find some evidence that the observed benefits of finetuning may be impacted by the domain subject matter. Lastly, we observed dramatic improvement with the LLama 3.1 8B-Instruct open-weight model by seeding the initial training examples with a significant amount of cheaply generated synthetic training data.
- Abstract(参考訳): 自動短解法グラフ作成を改善する研究は、最近、迅速なエンジニアリングと、最高の結果を達成するためのノーショットプロンプトを備えたLarge Language Models (LLMs)に焦点を当てている。
これは、これまで多くのユーザにとってアクセス不能な大規模計算クラスタを必要としてきた、微調整のアプローチとは対照的である。
OpenAIのファインチューニングサービスのような新しいクローズドモデルアプローチは、100のサンプルを伴い、量子化ローランク適応(QLORA)のようなオープンウェイトを使用するメソッドは、コンシューマGPU上のモデルを微調整するために使用することができる。
我々はこれらの微調整手法をどちらも評価し、構造化された(JSON)出力を用いた自動短解階調(ASAG)のための少数ショットプロンプトとの相互作用を測定した。
この結果から,Llama のオープンウェイトモデルでは,少量のデータを用いたファインタニングが有効性に限界があることがわかったが,OpenAI のクローズドモデルでは,ファインタニング手法がベースライン命令チューニングされた LLM よりも優れていることがわかった。
評価セットは限られているものの、観察された微調整の利点がドメインの主題に影響を及ぼす可能性があるという証拠がいくつかある。
最後に, LLama 3.1 8B-Instruct オープンウェイトモデルを用いて, 安価に生成した大量の合成トレーニングデータを用いて初期トレーニング例をシード化することにより, 劇的な改善が見られた。
関連論文リスト
- Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文 参考訳(メタデータ) (2025-05-29T16:15:36Z) - Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Guardrail Baselines for Unlearning in LLMs [33.86316928349476]
ファインタニングは、大きな言語モデルから'未学習'の概念への有望なアプローチである。
ガードレールをベースとしたプロンプトやフィルタリングなどの手法が,ファインタニングに匹敵する未学習結果が得られることを示す。
論文 参考訳(メタデータ) (2024-03-05T21:19:06Z) - LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms [2.249916681499244]
オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。
我々は,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を達成するのに十分であることを確認した。
論文 参考訳(メタデータ) (2023-11-22T03:37:01Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering [64.6741991162092]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - The Power of Scale for Parameter-Efficient Prompt Tuning [4.481348281462904]
プロンプトチューニング」は、特定の下流タスクを実行するために、凍結した言語モデルに「ソフトプロンプト」を学習するための単純なメカニズムである。
我々のエンドツーエンドの学習アプローチは、GPT-3の「ファウショット」学習を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2021-04-18T03:19:26Z) - Probabilistic Case-based Reasoning for Open-World Knowledge Graph
Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。
本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。
提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文 参考訳(メタデータ) (2020-10-07T17:48:12Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。