Fugu-MT 論文翻訳(概要): UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs

論文の概要: UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs

arxiv url: http://arxiv.org/abs/2602.22296v1
Date: Wed, 25 Feb 2026 15:34:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.363528
Title: UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs
Title（参考訳）: アップスキル:LLMにおける構造化応答多様性のための相互情報スキル学習
Authors: Devan Shah, Owen Yang, Daniel Yang, Chongyi Zheng, Benjamin Eysenbach,
Abstract要約: 本稿では,相互情報スキル学習を大規模言語モデルに適用する訓練時間手法であるUpSkillを紹介する。以上の結果から,UpSkillはより強力なベースモデル上でのマルチタスクのメトリクスを改善することを示す。 pass@kの改善が相互情報目的と密接に結びついているという実証的証拠と理論的証拠の両方を見いだす。
参考スコア（独自算出の注目度）: 28.526758776988256
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has improved the reasoning abilities of large language models (LLMs) on mathematics and programming tasks, but standard approaches that optimize single-attempt accuracy can inadvertently suppress response diversity across repeated attempts, narrowing exploration and overlooking underrepresented strategies. We introduce UpSkill, a training time method that adapts Mutual Information Skill Learning (MISL) to LLMs for optimizing pass@k correctness. We propose a novel reward that we implement within Group Relative Policy Optimization (GRPO): a token-level mutual information (MI) reward that encourages trajectory specificity to z. Experiments on GSM8K with three open-weight models, Llama 3.1-8B, Qwen 2.5-7B, and R1-Distilled-Qwen2.5-Math-1.5B, show that UpSkill improves multi-attempt metrics on the stronger base models, yielding mean gains of ~3% in pass@k for both Qwen and Llama without degrading pass@1. Additionally, we find both empirical and theoretical evidence that improvements in pass@k are closely tied to the mutual information objective.
Abstract（参考訳）: RLVR(Reinforcement Learning with Verifiable Rewards)は、数学やプログラミングのタスクにおいて、大きな言語モデル(LLM)の推論能力を改善するが、単一注意力の精度を最適化する標準的なアプローチは、繰り返し試みによる応答の多様性を必然的に抑制し、探索を狭め、未表現の戦略を見渡すことができる。相互情報スキル学習(MISL)を LLM に適用し,pass@k の正しさを最適化する訓練時間手法である UpSkill を導入する。グループ相対政策最適化(GRPO: Group Relative Policy Optimization)において,zへの軌道特異性を促進するトークンレベルの相互情報(MI)報酬を提案する。 Llama 3.1-8B, Qwen 2.5-7B, R1-Distilled-Qwen2.5-Math-1.5B の3つのオープンウェイトモデルを用いた GSM8K 実験では、UpSkill はより強力なベースモデル上でのマルチタスクメトリクスを改善し、Qwen と Llama のパス@k の平均利得が 3% になる。さらに、pass@kの改善が相互情報目的と密接に結びついているという実証的証拠と理論的証拠の両方を見出した。

関連論文リスト

CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文参考訳（メタデータ） (2025-11-01T04:37:01Z)
DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning [37.20873499361773]
マスク付き拡散大言語モデル (dLLM) を学習し, より優れた推論を行うための統一フレームワークを提案する。我々はまず,既存の基本方針を,真のdLLM政策の近似としてはるかに難易度の高い,政治外RLによるサロゲート政策の訓練により統一する。 RLでは、各プロンプトに対して推論閾値を適応的に割り当てることによって、dLLMの自然なマルチトークン予測能力をインセンティブ化する。
論文参考訳（メタデータ） (2025-10-02T16:57:24Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Unlearning Completeness [30.596695293390415]
補間近似測定(Interpolated Approximate Measurement, IAM)は、非学習推論用に設計されたフレームワークである。 IAMは、クエリされたサンプルに対するモデルの一般化適合行動ギャップを補間することにより、サンプルレベルの未学習完全性を定量化する。 IAMを最近の近似アンラーニングアルゴリズムに適用し、オーバーアンラーニングとアンダーアンラーニングの両方のリスクを明らかにする。
論文参考訳（メタデータ） (2025-06-06T14:22:18Z)
Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文参考訳（メタデータ） (2025-05-30T15:42:19Z)
Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning [80.27561080938747]
CANOEは、人間のアノテーションを使わずに、下流のさまざまなタスクにまたがる大きな言語モデルの忠実性の幻覚を減らすためのフレームワークである。 Dual-GRPOはルールベースの強化学習手法であり、合成された短値QAデータから得られる3つのルールベースの報酬を含む。実験の結果、CANOEは11のタスクにまたがるLLMの忠実さを大幅に改善し、最も進歩したLLMよりも優れていた。
論文参考訳（メタデータ） (2025-05-22T10:10:07Z)
Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。 Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-05-18T14:08:03Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。 RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文参考訳（メタデータ） (2025-02-10T18:52:04Z)
Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-05T19:32:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。