Fugu-MT 論文翻訳(概要): Enhancing Analogical Reasoning in the Abstraction and Reasoning Corpus via Model-Based RL

論文の概要: Enhancing Analogical Reasoning in the Abstraction and Reasoning Corpus via Model-Based RL

arxiv url: http://arxiv.org/abs/2408.14855v1
Date: Tue, 27 Aug 2024 08:15:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 14:33:22.614882
Title: Enhancing Analogical Reasoning in the Abstraction and Reasoning Corpus via Model-Based RL
Title（参考訳）: モデルベースRLを用いた抽象・推論コーパスにおけるアナロジカル推論の強化
Authors: Jihwan Lee, Woochang Sim, Sejin Kim, Sundong Kim,
Abstract要約: モデルに基づく強化学習は類推的推論の課題に適した手法であることを示す。モデルベースRL法であるDreamerV3とモデルフリーRL法であるProximal Policy Optimizationを比較した。この結果から,モデルベースRLはモデルフリーのRLよりも,単一タスクからの学習や一般化に優れるだけでなく,類似タスク間の推論において大きな優位性を示すことがわかった。
参考スコア（独自算出の注目度）: 6.143939145442195
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper demonstrates that model-based reinforcement learning (model-based RL) is a suitable approach for the task of analogical reasoning. We hypothesize that model-based RL can solve analogical reasoning tasks more efficiently through the creation of internal models. To test this, we compared DreamerV3, a model-based RL method, with Proximal Policy Optimization, a model-free RL method, on the Abstraction and Reasoning Corpus (ARC) tasks. Our results indicate that model-based RL not only outperforms model-free RL in learning and generalizing from single tasks but also shows significant advantages in reasoning across similar tasks.
Abstract（参考訳）: 本稿では,モデルに基づく強化学習(モデルベースRL)が類似推論の課題に適した手法であることを実証する。モデルに基づくRLは、内部モデルの作成により、アナログ推論タスクをより効率的に解くことができると仮定する。これをテストするために,モデルベースRL法であるDreamerV3とモデルフリーRL法であるProximal Policy Optimizationを,ARC(Abstraction and Reasoning Corpus)タスク上で比較した。この結果から,モデルベースRLはモデルフリーのRLよりも,単一タスクからの学習や一般化に優れるだけでなく,類似タスク間の推論において大きな優位性を示すことがわかった。

関連論文リスト

Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文参考訳（メタデータ） (2025-11-02T16:33:45Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection [35.268183415853976]
本稿では,実験解析と厳密な理論的モデリングによるRL学習プロセスの説明を行う。我々は、報酬(RLVR)とモデルの内部フィードバック(RLIF)という2つの典型的な報酬を用いて、RLのトレーニングダイナミクスを理解するための理論的枠組みを開発する。
論文参考訳（メタデータ） (2025-06-05T07:17:04Z)
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文参考訳（メタデータ） (2025-05-30T17:59:01Z)
RAST: Reasoning Activation in LLMs via Small-model Transfer [33.32587030836428]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。大規模にRLを適用することは、潜在的にリソース集約であり、複数のモデルコピーと広範なGPUワークロードを必要とします。本稿では、RL学習モデルからRL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより、推論挙動を伝達する簡易かつ効果的なRASTを提案する。
論文参考訳（メタデータ） (2025-05-30T17:57:08Z)
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
論文参考訳（メタデータ） (2025-04-18T17:59:56Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文参考訳（メタデータ） (2025-03-06T15:34:27Z)
Model-based Offline Reinforcement Learning with Lower Expectile Q-Learning [6.345851712811528]
我々は、新しいモデルに基づくオフラインRL手法、Low expectile Q-learning (LEQ)を導入する。 LEQは、$lambda$-returnsの低い期待回帰による低バイアスモデルベースの値推定を提供する。我々の研究は、低期待の回帰、$lambda$-returns、オフラインデータに対する批判的トレーニングがLEQにとって重要であることを示した。
論文参考訳（メタデータ） (2024-06-30T13:44:59Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Learning a model is paramount for sample efficiency in reinforcement learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文参考訳（メタデータ） (2023-02-14T16:14:39Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。 CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文参考訳（メタデータ） (2022-06-27T17:02:53Z)
Offline Reinforcement Learning with Causal Structured World Models [9.376353239574243]
因果世界モデルは、オフラインRLにおいて、通常の世界モデルよりも優れていることを示す。本稿では, CaUsal Structure (FOCUS) を用いたoFfline mOdel型強化学習法を提案する。
論文参考訳（メタデータ） (2022-06-03T09:53:57Z)
INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文参考訳（メタデータ） (2022-04-18T23:09:23Z)
PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided Exploration [15.173628100049129]
本研究では,カーネル化レギュレータ(KNR)と線形マルコフ決定過程(MDP)のモデルベースアルゴリズムについて検討する。両方のモデルに対して、我々のアルゴリズムはサンプルの複雑さを保証し、プランニングオラクルへのアクセスのみを使用する。また,提案手法は報酬のない探索を効率的に行うことができる。
論文参考訳（メタデータ） (2021-07-15T15:49:30Z)
Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文参考訳（メタデータ） (2021-06-03T17:58:51Z)
Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文参考訳（メタデータ） (2021-03-26T11:32:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。