論文の概要: DAST: Difficulty-Aware Self-Training on Large Language Models
- arxiv url: http://arxiv.org/abs/2503.09029v1
- Date: Wed, 12 Mar 2025 03:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:26.902806
- Title: DAST: Difficulty-Aware Self-Training on Large Language Models
- Title(参考訳): DAST: 大規模言語モデルにおける難解な自己学習
- Authors: Boyang Xue, Qi Zhu, Hongru Wang, Rui Wang, Sheng Wang, Hongling Xu, Fei Mi, Yasheng Wang, Lifeng Shang, Qun Liu, Kam-Fai Wong,
- Abstract要約: 大規模言語モデル(LLM)の自己学習手法は、常に挑戦的なクエリのアンダーサンプルである。
本研究は,自己生成応答の量と品質を改善することに焦点を当てた,難易度を考慮した自己学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 68.30467836807362
- License:
- Abstract: Present Large Language Models (LLM) self-training methods always under-sample on challenging queries, leading to inadequate learning on difficult problems which limits LLMs' ability. Therefore, this work proposes a difficulty-aware self-training (DAST) framework that focuses on improving both the quantity and quality of self-generated responses on challenging queries during self-training. DAST is specified in three components: 1) sampling-based difficulty level estimation, 2) difficulty-aware data augmentation, and 3) the self-training algorithm using SFT and DPO respectively. Experiments on mathematical tasks demonstrate the effectiveness and generalization of DAST, highlighting the critical role of difficulty-aware strategies in advancing LLM self-training.
- Abstract(参考訳): 現在、LLM(Large Language Models)の自己学習手法は、常に挑戦的なクエリのアンダーサンプルであり、LLMの能力を制限する難しい問題に対する学習が不十分である。
そこで本研究では,自己学習中の課題クエリに対して,自己生成応答の量と品質の両方を改善することに焦点を当てた,難易度対応型自己学習(DAST)フレームワークを提案する。
DASTは3つのコンポーネントで指定されます。
1)サンプリングに基づく難易度推定
2)データ強化の難しさ、及び
3) SFT と DPO を用いた自己学習アルゴリズムについて検討した。
数学的なタスクの実験は、DASTの有効性と一般化を示し、LSMの自己学習を進める上での困難を意識した戦略の重要な役割を強調している。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling [38.7578639980701]
自己改善手法により、大規模な言語モデルがソリューション自体を生成できる。
モデルでは、簡単なクエリをオーバーサンプルし、まだマスターしていないクエリをアンダーサンプルする傾向があります。
本稿では,重み付きデータ抽出の効率化を目的とした,ガイド付き自己改善(GSI)について紹介する。
論文 参考訳(メタデータ) (2024-11-01T17:18:45Z) - Let's Be Self-generated via Step by Step: A Curriculum Learning Approach to Automated Reasoning with Large Language Models [8.255272009912417]
カリキュラム学習にインスパイアされたtextbfLBS3 自動推論のための新しいプロンプト手法を提案する。
LBS3はLLMを操り、ターゲットクエリに関連付けられた簡単にハードなプロキシクエリをリコールする。
これは、簡単なプロキシクエリから派生した例的なプロンプトを利用して、ハードプロキシクエリの解決にLSMを向けるプログレッシブ戦略を起動する。
論文 参考訳(メタデータ) (2024-10-29T04:28:49Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning [12.651588927599441]
インストラクションチューニングは、大きな言語モデルにオープンドメイン命令と人間優先応答を合わせることを目的としている。
学生のLLMの追従が難しい命令を選択するために,TAPIR(Task-Aware Curriculum Planning for Instruction Refinement)を導入する。
学生の能力のバランスをとるために、トレーニングセット内のタスク分布は、対応するタスクに応じて自動的に調整された応答で調整される。
論文 参考訳(メタデータ) (2024-05-22T08:38:26Z) - Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。
我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文 参考訳(メタデータ) (2024-05-06T10:42:28Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。