Fugu-MT 論文翻訳(概要): Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering

論文の概要: Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering

arxiv url: http://arxiv.org/abs/2408.07888v1
Date: Thu, 15 Aug 2024 02:22:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-16 15:19:12.813535
Title: Fine-tuning Large Language Models with Human-inspired Learning Strategies in Medical Question Answering
Title（参考訳）: 医療質問応答における人間に触発された学習方略を用いた微調整大言語モデル
Authors: Yushi Yang, Andrew M. Bean, Robert McCraith, Adam Mahdi,
Abstract要約: 大規模言語モデルのトレーニングは、データ関連のかなりのコストを発生させる。カリキュラムベースの学習戦略と非カリキュラムベースの学習戦略の両方を評価することで、これまでの研究を拡張した。この結果から,人間に触発された学習戦略を微調整 LLM に適用した場合の適度な影響が示唆された。
参考スコア（独自算出の注目度）: 1.912429179274357
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training Large Language Models (LLMs) incurs substantial data-related costs, motivating the development of data-efficient training methods through optimised data ordering and selection. Human-inspired learning strategies, such as curriculum learning, offer possibilities for efficient training by organising data according to common human learning practices. Despite evidence that fine-tuning with curriculum learning improves the performance of LLMs for natural language understanding tasks, its effectiveness is typically assessed using a single model. In this work, we extend previous research by evaluating both curriculum-based and non-curriculum-based learning strategies across multiple LLMs, using human-defined and automated data labels for medical question answering. Our results indicate a moderate impact of using human-inspired learning strategies for fine-tuning LLMs, with maximum accuracy gains of 1.77% per model and 1.81% per dataset. Crucially, we demonstrate that the effectiveness of these strategies varies significantly across different model-dataset combinations, emphasising that the benefits of a specific human-inspired strategy for fine-tuning LLMs do not generalise. Additionally, we find evidence that curriculum learning using LLM-defined question difficulty outperforms human-defined difficulty, highlighting the potential of using model-generated measures for optimal curriculum design.
Abstract（参考訳）: LLM(Large Language Models)のトレーニングは、データ注文と選択を最適化することで、データ効率のよいトレーニング手法の開発を動機付け、データ関連のかなりのコストを発生させる。カリキュラム学習のような人間にインスパイアされた学習戦略は、一般的な人間の学習実践に従ってデータを整理することで、効率的なトレーニングを行う可能性を提供する。カリキュラム学習による微調整が自然言語理解タスクにおけるLLMの性能を向上させるという証拠があるが、その効果は典型的には1つのモデルを用いて評価される。本研究では,複数のLSMを対象としたカリキュラムベースおよび非カリキュラムベースの学習戦略を,医療質問応答のための人為的および自動化されたデータラベルを用いて評価することにより,これまでの研究を拡張した。この結果から,人間にインスパイアされた学習戦略を微調整 LLM に適用することで,モデル毎の最大精度が1.77%,データセット毎の1.81% に達することが示唆された。重要なことは、これらの戦略の有効性がモデル・データセットの組み合わせによって大きく異なることを示し、微調整 LLM に対する特定の人間にインスパイアされた戦略の利点が一般化しないことを強調している。さらに, LLM を用いたカリキュラム学習は, 最適カリキュラム設計のためのモデル生成手法の活用の可能性を強調し, 人間の定義した難易度よりも優れていることを示す。

関連論文リスト

Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning [40.19639581728674]
タスク固有のデータに対する細調整された大規模言語モデル(LLM)は、その効果的なデプロイメントには不可欠である。データウィスペラ (Data Whisperer) は,数発のインコンテクスト学習とモデルによる微調整を併用した,効率的でトレーニング不要なアテンションベースの手法である。 Data Whispererは、Llama-3-8B-インストラクトモデルの完全なGSM8Kデータセットよりも優れたパフォーマンスを実現し、データの10%しか使用せず、既存のメソッドよりも3.1ポイントの改善と7.4$times$スピードアップを実現している。
論文参考訳（メタデータ） (2025-05-18T03:10:00Z)
LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文参考訳（メタデータ） (2025-05-12T10:57:51Z)
Contextual Online Uncertainty-Aware Preference Learning for Human Feedback [13.478503755314344]
RLHF(Reinforcement Learning from Human Feedback)は人工知能において重要なパラダイムとなっている。最適モデルに基づくオンライン意思決定と統計的推測を同時に行うための新しい統計的枠組みを提案する。本稿では,大規模マルチタスク言語理解データセット上での大規模言語モデルのランク付けのための人間の嗜好データ分析に,提案手法を適用した。
論文参考訳（メタデータ） (2025-04-27T19:59:11Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
Feasible Learning [78.6167929413604]
本稿では,サンプル中心の学習パラダイムであるFeasible Learning(FL)を紹介する。大規模言語モデルにおける画像分類, 年齢回帰, 好みの最適化といった経験的分析により, FLを用いて訓練したモデルでは, 平均的性能に限界があるものの, ERMと比較して改善された尾の挙動を示しながらデータから学習できることが実証された。
論文参考訳（メタデータ） (2025-01-24T20:39:38Z)
Data Assetization via Resources-decoupled Federated Learning [7.347554648348435]
フェデレートラーニング(FL)は、プライバシーを維持しながら協調トレーニングモデルに効果的なアプローチを提供する。まず,3つの関係者を巻き込んだ資源分離FLの枠組みを提案する。次に,QD-RDFL(Quality-Aware Dynamic Resources-Decoupled FL Algorithm)を提案する。
論文参考訳（メタデータ） (2025-01-24T15:49:04Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文参考訳（メタデータ） (2024-10-22T00:11:41Z)
IterSelectTune: An Iterative Training Framework for Efficient Instruction-Tuning Data Selection [28.581257601441045]
高品質な命令データを選択するための効率的で費用対効果の高い反復的トレーニングポリシーである$textbfIterSelectTune$を紹介した。ソースデータの約20%を微調整することで、本手法は、全データセット上で調整されたモデルよりも一貫して優れる。
論文参考訳（メタデータ） (2024-10-17T11:48:57Z)
Enhancing SLM via ChatGPT and Dataset Augmentation [0.3844771221441211]
我々は,大言語モデル (LLMs) と小言語モデル (SLMs) のパフォーマンスギャップを埋めるために,知識蒸留技術と合成データセット拡張を用いている。提案手法は,情報抽出と情報推論という2種類の理性生成を伴い,ANLIデータセットを充実させる。その結果, 合成合理化によって自然言語の理解能力が向上し, ANLIデータセット上での分類精度が1.3%, 2.3%向上することが判明した。
論文参考訳（メタデータ） (2024-09-19T09:24:36Z)
Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文参考訳（メタデータ） (2024-06-13T16:17:21Z)
Efficient Ensembles Improve Training Data Attribution [12.180392191924758]
トレーニングデータ帰属法は、データ中心AIにおける幅広い応用により、個々のデータポイントがモデル予測に与える影響を定量化することを目的としている。この分野の既存の手法は、リトレーニングベースとグラデーションベースに分類されるが、有害なトレードオフ帰属効果に苦慮している。近年の研究では、複数の独立に訓練されたモデルのアンサンブルによる勾配に基づく手法の強化が、より優れた帰属を達成できることが示されている。
論文参考訳（メタデータ） (2024-05-27T15:58:34Z)
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。 LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文参考訳（メタデータ） (2024-03-04T22:47:58Z)
ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文参考訳（メタデータ） (2024-02-19T01:28:48Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Scalable and Equitable Math Problem Solving Strategy Prediction in Big Educational Data [2.86829428083307]
我々はMVecと呼ばれる埋め込みを開発し、学生の熟達度に基づいて表現を学習する。次に、これらの埋め込みを非パラメトリッククラスタリング法でクラスタ化する。提案手法は,大規模データセットの小さなサンプルをトレーニングすることで,高精度にスケールアップ可能であることを示す。
論文参考訳（メタデータ） (2023-08-07T19:51:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。