Fugu-MT 論文翻訳(概要): DAST: Difficulty-Aware Self-Training on Large Language Models

論文の概要: DAST: Difficulty-Aware Self-Training on Large Language Models

arxiv url: http://arxiv.org/abs/2503.09029v1
Date: Wed, 12 Mar 2025 03:36:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.601756
Title: DAST: Difficulty-Aware Self-Training on Large Language Models
Title（参考訳）: DAST: 大規模言語モデルにおける難解な自己学習
Authors: Boyang Xue, Qi Zhu, Hongru Wang, Rui Wang, Sheng Wang, Hongling Xu, Fei Mi, Yasheng Wang, Lifeng Shang, Qun Liu, Kam-Fai Wong,
Abstract要約: 大規模言語モデル(LLM)の自己学習手法は、常に挑戦的なクエリのアンダーサンプルである。本研究は,自己生成応答の量と品質を改善することに焦点を当てた,難易度を考慮した自己学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 68.30467836807362
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Present Large Language Models (LLM) self-training methods always under-sample on challenging queries, leading to inadequate learning on difficult problems which limits LLMs' ability. Therefore, this work proposes a difficulty-aware self-training (DAST) framework that focuses on improving both the quantity and quality of self-generated responses on challenging queries during self-training. DAST is specified in three components: 1) sampling-based difficulty level estimation, 2) difficulty-aware data augmentation, and 3) the self-training algorithm using SFT and DPO respectively. Experiments on mathematical tasks demonstrate the effectiveness and generalization of DAST, highlighting the critical role of difficulty-aware strategies in advancing LLM self-training.
Abstract（参考訳）: 現在、LLM(Large Language Models)の自己学習手法は、常に挑戦的なクエリのアンダーサンプルであり、LLMの能力を制限する難しい問題に対する学習が不十分である。そこで本研究では,自己学習中の課題クエリに対して,自己生成応答の量と品質の両方を改善することに焦点を当てた,難易度対応型自己学習(DAST)フレームワークを提案する。 DASTは3つのコンポーネントで指定されます。 1)サンプリングに基づく難易度推定 2)データ強化の難しさ、及び 3) SFT と DPO を用いた自己学習アルゴリズムについて検討した。数学的なタスクの実験は、DASTの有効性と一般化を示し、LSMの自己学習を進める上での困難を意識した戦略の重要な役割を強調している。

関連論文リスト

RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文参考訳（メタデータ） (2026-02-12T21:28:46Z)
SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search [58.116954449750544]
多様な最適化問題を解決するために,テスト時間スケーリングを活用したトレーニング不要のフレームワークを導入する。直接的に解くのではなく、数学的定式化を生成し、新しいモンテカルロ木探索戦略によって導かれる解法対応のコードに変換する。
論文参考訳（メタデータ） (2025-10-19T16:21:19Z)
The Path of Self-Evolving Large Language Models: Achieving Data-Efficient Learning via Intrinsic Feedback [51.144727949988436]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める可能性を実証した。本研究では,最小限のデータを用いたLLによるLLMの改善について検討する。データ依存を最小限に抑えるため、自己認識に基礎を置いた2つの新しいメカニズムを導入する。
論文参考訳（メタデータ） (2025-10-03T06:32:10Z)
Can Structured Templates Facilitate LLMs in Tackling Harder Tasks? : An Exploration of Scaling Laws by Difficulty [20.9633647829495]
後学習法は複雑なタスクの深層手続き論理を捉えるのに不足する。本稿では,SST(Structured Solution template)フレームワークを提案する。 GSM8K、AIME24、および新しいDynamic Enベンチマークの実験により、SSTは特に難しい問題において、精度と効率の両方を著しく改善することが示された。
論文参考訳（メタデータ） (2025-08-26T14:26:32Z)
Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文参考訳（メタデータ） (2025-07-13T19:36:17Z)
Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMs [45.83245433138508]
大規模言語モデル(LLM)は、幅広いタスクを解くことができる汎用エージェントへと急速に進歩してきた。彼らは、タスクの複雑さに関わらず、固定推論時間計算を適用し、しばしば難しいことを考えながら単純な問題を過小評価する。本調査では, LLM推論の計算効率向上を目的とした, 効率的なテスト時間計算戦略の総合的なレビューを行う。
論文参考訳（メタデータ） (2025-07-02T18:27:42Z)
e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs [49.01449646799905]
既存の推論モデルでは外挿がうまく行われていないことが示される。レシピ e3 は AIME'25 と HMMT'25 のスコアに基づいて最もよく知られた 1.7B モデルを生成する。 e3-1.7Bモデルは、高いpass@1スコアを得るだけでなく、ベースモデルよりもpass@kを改善する。
論文参考訳（メタデータ） (2025-06-10T17:52:42Z)
Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。 E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文参考訳（メタデータ） (2025-06-07T02:41:54Z)
Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective [27.94738910330893]
強化学習は、大規模言語モデルの推論能力を高める可能性を示す。既存の手法では,問題問題に基づくスケジューリングによる効率向上が試みられている。本稿では,問題の正確かつ安定した推定を可能にするtextbfC$ompetence-$textbfD$ifficultyを提案する。
論文参考訳（メタデータ） (2025-05-23T09:15:26Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning [26.680686158061192]
推論は大規模言語モデル(LLM)の基本機能である本稿では,テキストベースのゲームで LLM を評価するためのベンチマークである TextGames を紹介する。以上の結果から,LSMは最も容易かつ中程度の問題に対処する能力を示すが,より困難な課題に直面することが明らかとなった。
論文参考訳（メタデータ） (2025-02-25T18:26:48Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling [38.7578639980701]
自己改善手法により、大規模な言語モデルがソリューション自体を生成できる。モデルでは、簡単なクエリをオーバーサンプルし、まだマスターしていないクエリをアンダーサンプルする傾向があります。本稿では,重み付きデータ抽出の効率化を目的とした,ガイド付き自己改善(GSI)について紹介する。
論文参考訳（メタデータ） (2024-11-01T17:18:45Z)
Let's Be Self-generated via Step by Step: A Curriculum Learning Approach to Automated Reasoning with Large Language Models [8.255272009912417]
カリキュラム学習にインスパイアされたtextbfLBS3 自動推論のための新しいプロンプト手法を提案する。 LBS3はLLMを操り、ターゲットクエリに関連付けられた簡単にハードなプロキシクエリをリコールする。これは、簡単なプロキシクエリから派生した例的なプロンプトを利用して、ハードプロキシクエリの解決にLSMを向けるプログレッシブ戦略を起動する。
論文参考訳（メタデータ） (2024-10-29T04:28:49Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning [12.651588927599441]
インストラクションチューニングは、大きな言語モデルにオープンドメイン命令と人間優先応答を合わせることを目的としている。学生のLLMの追従が難しい命令を選択するために,TAPIR(Task-Aware Curriculum Planning for Instruction Refinement)を導入する。学生の能力のバランスをとるために、トレーニングセット内のタスク分布は、対応するタスクに応じて自動的に調整された応答で調整される。
論文参考訳（メタデータ） (2024-05-22T08:38:26Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。