論文の概要: Learning from Failures in Multi-Attempt Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.04808v1
- Date: Tue, 04 Mar 2025 02:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:57:05.263945
- Title: Learning from Failures in Multi-Attempt Reinforcement Learning
- Title(参考訳): 多目的強化学習における失敗からの学習
- Authors: Stephen Chung, Wenyu Du, Jie Fu,
- Abstract要約: 実験結果から,多目的タスクで訓練された小さなLLMであっても,より多くの試行で評価すると,精度が著しく向上することがわかった。
その結果,従来のシングルターンタスクと比較して,マルチタスクタスクで訓練されたLLMは,数学ベンチマークで若干性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 35.7935476159768
- License:
- Abstract: Recent advancements in reinforcement learning (RL) for large language models (LLMs), exemplified by DeepSeek R1, have shown that even a simple question-answering task can substantially improve an LLM's reasoning capabilities. In this work, we extend this approach by modifying the task into a multi-attempt setting. Instead of generating a single response per question, the model is given multiple attempts, with feedback provided after incorrect responses. The multi-attempt task encourages the model to refine its previous attempts and improve search efficiency. Experimental results show that even a small LLM trained on a multi-attempt task achieves significantly higher accuracy when evaluated with more attempts, improving from 45.6% with 1 attempt to 52.5% with 2 attempts on the math benchmark. In contrast, the same LLM trained on a standard single-turn task exhibits only a marginal improvement, increasing from 42.3% to 43.2% when given more attempts during evaluation. The results indicate that, compared to the standard single-turn task, an LLM trained on a multi-attempt task achieves slightly better performance on math benchmarks while also learning to refine its responses more effectively based on user feedback. Full code is available at https://github.com/DualityRL/multi-attempt
- Abstract(参考訳): 大規模言語モデル(LLM)に対する強化学習(RL)の最近の進歩は、DeepSeek R1が示すように、単純な質問応答タスクでさえ、LLMの推論能力を大幅に改善できることを示している。
本研究では,タスクをマルチタスク設定に修正することで,このアプローチを拡張した。
質問毎に1つのレスポンスを生成する代わりに、モデルには複数の試行が与えられ、誤ったレスポンスの後にフィードバックが提供される。
マルチタスクタスクは、モデルに以前の試みを洗練させ、探索効率を向上させることを奨励する。
実験結果から、多目的タスクで訓練された小さなLLMでさえ、より多くの試行で評価すると大幅に精度が向上し、1回の試行で45.6%から2回の試行で52.5%に改善された。
対照的に、標準のシングルターンタスクで訓練された同じLLMは限界的な改善しか示さず、評価中により多くの試行が行われると42.3%から43.2%に増加した。
その結果,従来の単一ターンタスクと比較すると,マルチタスクタスクで訓練したLDMは,ユーザフィードバックに基づいてより効率的に応答を洗練しながら,数学ベンチマークの性能をわずかに向上することがわかった。
完全なコードはhttps://github.com/DualityRL/multi-attemptで入手できる。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - BenTo: Benchmark Task Reduction with In-Context Transferability [32.561978389905434]
本稿では,大規模言語モデル(LLM)のベンチマークに使用するタスクを効率的に削減する方法を検討する。
In-context Learning (ICL) による2つのタスク間の伝達可能性を推定する実用的な指標を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:41:15Z) - Rewriting Conversational Utterances with Instructed Large Language Models [9.38751103209178]
大規模言語モデル(LLM)は多くのNLPタスクで最先端のパフォーマンスを達成することができる。
本稿では,最高の検索性能をもたらす最も情報に富んだ発話を提示する手法について検討する。
その結果、LLMによる会話音声の書き直しは、MRRで25.2%、Precision@1で31.7%、NDCG@3で27%、Recall@500で11.5%の大幅な改善が達成された。
論文 参考訳(メタデータ) (2024-10-10T10:30:28Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Task Selection and Assignment for Multi-modal Multi-task Dialogue Act
Classification with Non-stationary Multi-armed Bandits [11.682678945754837]
マルチタスク学習(MTL)は、関連する補助タスクと共同学習することで、一次タスクの性能を向上させることを目的としている。
これまでの研究では、このようなランダムなタスクの選択は役に立たない可能性があり、パフォーマンスに有害な可能性があることが示唆されている。
本稿では,非定常的マルチアームバンディットに基づくタスクの選択と割り当てを行う手法を提案する。
論文 参考訳(メタデータ) (2023-09-18T14:51:51Z) - New Tight Relaxations of Rank Minimization for Multi-Task Learning [161.23314844751556]
2つの正規化項に基づく2つの新しいマルチタスク学習定式化を提案する。
本手法は,タスク間で共有される低ランク構造を正確に復元し,関連するマルチタスク学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T07:29:57Z) - Efficiently Teaching an Effective Dense Retriever with Balanced Topic
Aware Sampling [37.01593605084575]
TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。
本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T16:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。