Fugu-MT 論文翻訳(概要): LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms

論文の概要: LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms

arxiv url: http://arxiv.org/abs/2311.13133v1
Date: Wed, 22 Nov 2023 03:37:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 16:20:26.571575
Title: LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms
Title（参考訳）: 限界: 評価パラダイムをまたいだ命令チューニングはより少なくなる
Authors: Aditi Jha, Sam Havens, Jeremey Dohmann, Alex Trott, Jacob Portes
Abstract要約: オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。我々は,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を達成するのに十分であることを確認した。
参考スコア（独自算出の注目度）: 2.249916681499244
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models are traditionally finetuned on large instruction datasets. However recent studies suggest that small, high-quality datasets can suffice for general purpose instruction following. This lack of consensus surrounding finetuning best practices is in part due to rapidly diverging approaches to LLM evaluation. In this study, we ask whether a small amount of diverse finetuning samples can improve performance on both traditional perplexity-based NLP benchmarks, and on open-ended, model-based evaluation. We finetune open-source MPT-7B and MPT-30B models on instruction finetuning datasets of various sizes ranging from 1k to 60k samples. We find that subsets of 1k-6k instruction finetuning samples are sufficient to achieve good performance on both (1) traditional NLP benchmarks and (2) model-based evaluation. Finally, we show that mixing textbook-style and open-ended QA finetuning datasets optimizes performance on both evaluation paradigms.
Abstract（参考訳）: 大きな言語モデルは伝統的に大きな命令データセットで微調整される。しかし、最近の研究では、小型で高品質なデータセットが一般的な目的の指示に十分であることが示唆されている。この微調整のベストプラクティスに関するコンセンサスの欠如は、LCM評価に対するアプローチの急激な変更によるものである。本研究では,従来のパープレキシティに基づくNLPベンチマークと,オープンなモデルベース評価において,少量の多様な微調整サンプルが性能を向上させることができるかどうかを問う。オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。その結果,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を発揮することがわかった。最後に、教科書スタイルとオープンエンドQAファインタニングデータセットの混合により、両方の評価パラダイムの性能が最適化されることを示す。

関連論文リスト

Fine-tuning for Better Few Shot Prompting: An Empirical Comparison for Short Answer Grading [0.5825410941577593]
ファインチューニング手法は歴史的に多くのユーザにとってアクセス不能な大規模計算クラスタを必要としてきた。 OpenAIの微調整サービスのような新しいクローズドモデルアプローチは、100の例で結果をもたらす。これら2つの微調整手法の評価を行い, 自動短時間解答グレーディングのための数ショットプロンプトとの相互作用を測定した。
論文参考訳（メタデータ） (2025-08-06T03:52:55Z)
Beyond QA Pairs: Assessing Parameter-Efficient Fine-Tuning for Fact Embedding in LLMs [0.0]
本稿では,質問応答対をFactualクラスとConceptualクラスに分類することで,微調整プロセスの改善に焦点をあてる。 2つの異なるLlama-2モデルはこれらの分類に基づいて微調整され、GPT-3.5 TurboやGeminiのような大型モデルを用いて評価される。以上の結果から,概念データセットでトレーニングされたモデルは,実データセットでトレーニングしたモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-03T03:26:30Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。 HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文参考訳（メタデータ） (2024-06-21T07:38:55Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Instruction Mining: Instruction Data Selection for Tuning Large Language Models [18.378654454336136]
InstructMiningは、大規模な言語モデルを微調整するためのプレミアムインストラクションフォローデータを自動的に選択するように設計されている。 InstructMining は LLM-as-a-judge と Huggingface OpenLLM の2つのベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-07-12T16:37:31Z)
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文参考訳（メタデータ） (2023-06-07T19:59:23Z)
Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文参考訳（メタデータ） (2023-05-24T04:22:26Z)
Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文参考訳（メタデータ） (2022-10-20T16:58:32Z)
Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。 MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-03-09T17:26:53Z)
SE3M: A Model for Software Effort Estimation Using Pre-trained Embedding Models [0.8287206589886881]
本稿では,事前学習した埋め込みモデルの有効性を評価する。両方のアプローチでトレーニング済みのジェネリックモデルは、微調整プロセスを経ている。テスト結果は非常に有望で、事前トレーニングされたモデルを使用して、要求テキストのみに基づいてソフトウェアの労力を見積もることができることに気付きました。
論文参考訳（メタデータ） (2020-06-30T14:15:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。