Fugu-MT 論文翻訳(概要): On Generalization and Distributional Update for Mimicking Observations with Adequate Exploration

関連論文リスト

CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs [31.371566320424552]
CoBA-RLは、モデルの進化能力に基づいて、ロールアウト予算を適応的に割り当てるように設計された強化学習アルゴリズムである。我々のアプローチは、探索と搾取の間のトレードオフを効果的に編成し、一貫した一般化の改善を提供する。
論文参考訳（メタデータ） (2026-02-03T03:14:36Z)
Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文参考訳（メタデータ） (2025-10-27T23:10:06Z)
CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文参考訳（メタデータ） (2025-10-01T15:41:27Z)
WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。 WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2025-07-23T16:02:06Z)
On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。 OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文参考訳（メタデータ） (2025-05-29T15:58:04Z)
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文参考訳（メタデータ） (2025-05-26T22:51:00Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning [6.691759477350243]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。我々は,ヒトの嗜好を予測するために,最大85%の精度で報酬モデルを抽出し,様々な大きさの毒性に整合したLSMの実験を行った。
論文参考訳（メタデータ） (2024-10-16T12:14:25Z)
Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。以上の結果から,PbMARLの多面的アプローチが示唆された。
論文参考訳（メタデータ） (2024-09-01T13:14:41Z)
Preference-Guided Reinforcement Learning for Efficient Exploration [14.058764537783086]
LOPE: textbfLearning textbfOnline with trajectory textbfPreferencedanctextbfE, a end-to-end preference-guided RL framework。我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。 LOPEは収束率と全体的な性能の点で、最先端のいくつかの手法より優れている。
論文参考訳（メタデータ） (2024-07-09T02:11:12Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Generalizing Reward Modeling for Out-of-Distribution Preference Learning [3.9160947065896803]
大規模言語モデル(LLM)による嗜好学習は、LLM世代を人間の嗜好に合わせることを目的としている。人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。
論文参考訳（メタデータ） (2024-02-22T18:20:33Z)
Assessing the Impact of Distribution Shift on Reinforcement Learning Performance [0.0]
強化学習(RL)は独自の課題に直面する。点推定と訓練中の最適方針への収束を成功させるプロットの比較は、実験装置への過度な適合や依存を阻害する可能性がある。本稿では,分散シフト下でのRLアルゴリズムのロバスト性を評価するための評価手法を提案する。
論文参考訳（メタデータ） (2024-02-05T23:50:55Z)
Noise Distribution Decomposition based Multi-Agent Distributional Reinforcement Learning [15.82785057592436]
マルチエージェント強化学習(MARL)は、インテリジェントエージェント間の干渉によるノイズの影響を受けやすい。本稿では,グローバル共有雑音報酬を近似することで,分解に基づく新しいマルチエージェント分布RL法を提案する。また,提案手法の有効性を,雑音を考慮した広範囲なシミュレーション実験により検証した。
論文参考訳（メタデータ） (2023-12-12T07:24:15Z)
Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。モデルに基づくベイズ強化学習の観点から問題を考察する。本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文参考訳（メタデータ） (2023-08-12T14:59:19Z)
Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文参考訳（メタデータ） (2022-12-19T23:45:05Z)
Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-17T00:26:31Z)
Exploration with Multi-Sample Target Values for Distributional Reinforcement Learning [20.680417111485305]
分散RLのマルチサンプル目標値(MTV)を,単一サンプル目標値推定の原則的代替として導入する。改良された分布推定は UCB ベースの探査に寄与する。我々は,一連の連続制御タスクに対するアプローチを評価し,ヒューマノイド制御のような難易度の高いタスクに対して,最先端のモデルフリー性能を示す。
論文参考訳（メタデータ） (2022-02-06T03:27:05Z)
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文参考訳（メタデータ） (2021-10-22T22:07:51Z)
Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文参考訳（メタデータ） (2021-06-07T17:47:16Z)
Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。返品だ Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文参考訳（メタデータ） (2021-03-20T23:42:50Z)
Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文参考訳（メタデータ） (2021-02-25T21:33:47Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: On Generalization and Distributional Update for Mimicking Observations with Adequate Exploration

関連論文リスト