論文の概要: Open Materials Generation with Inference-Time Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.00424v1
- Date: Sat, 31 Jan 2026 00:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.177613
- Title: Open Materials Generation with Inference-Time Reinforcement Learning
- Title(参考訳): 推論時間強化学習によるオープンマテリアル生成
- Authors: Philipp Hoellmer, Stefano Martiniani,
- Abstract要約: 推論時間強化学習を用いたオープンマテリアル生成(OMatG-IRL)を紹介する。
OMatG-IRLは学習した速度場を直接操作し、スコアの明示的な計算を不要にする。
我々は,OMatG-IRLが時間依存性の速度アニールスケジュールを学習し,正確な結晶構造予測を可能にすることを示す。
- 参考スコア(独自算出の注目度): 1.4323566945483497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous-time generative models for crystalline materials enable inverse materials design by learning to predict stable crystal structures, but incorporating explicit target properties into the generative process remains challenging. Policy-gradient reinforcement learning (RL) provides a principled mechanism for aligning generative models with downstream objectives but typically requires access to the score, which has prevented its application to flow-based models that learn only velocity fields. We introduce Open Materials Generation with Inference-time Reinforcement Learning (OMatG-IRL), a policy-gradient RL framework that operates directly on the learned velocity fields and eliminates the need for the explicit computation of the score. OMatG-IRL leverages stochastic perturbations of the underlying generation dynamics preserving the baseline performance of the pretrained generative model while enabling exploration and policy-gradient estimation at inference time. Using OMatG-IRL, we present the first application of RL to crystal structure prediction (CSP). Our method enables effective reinforcement of an energy-based objective while preserving diversity through composition conditioning, and it achieves performance competitive with score-based RL approaches. Finally, we show that OMatG-IRL can learn time-dependent velocity-annealing schedules, enabling accurate CSP with order-of-magnitude improvements in sampling efficiency and, correspondingly, reduction in generation time.
- Abstract(参考訳): 結晶材料の連続時間生成モデルは、結晶構造を安定的に予測することを学ぶことで逆材料設計を可能にするが、生成過程に明示的な目標特性を組み込むことは依然として困難である。
政策段階強化学習(RL)は、生成モデルを下流の目的と整合させる原理的なメカニズムを提供するが、通常はスコアへのアクセスを必要とするため、速度場のみを学習するフローベースモデルには適用できない。
OMatG-IRL(Open Materials Generation with Inference-time Reinforcement Learning, OMatG-IRL)は、学習速度場上で直接動作し、スコアの明示的な計算の必要性を解消する政策段階のRLフレームワークである。
OMatG-IRLは、事前学習された生成モデルのベースライン性能を保ちつつ、推定時の探索とポリシーの勾配推定を可能にしながら、基礎となる生成ダイナミクスの確率的摂動を利用する。
OMatG-IRLを用いて結晶構造予測(CSP)にRLを初めて適用する。
本手法は,構成条件付けによる多様性を保ちつつ,エネルギーベース目標を効果的に強化することを可能にし,スコアベースRL手法と競合する性能を実現する。
最後に,OMatG-IRLは時間依存性の速度アニーリングスケジュールを学習し,サンプリング効率のオーダー・オブ・マグニチュードの改善により正確なCSPを実現し,生成時間を短縮できることを示す。
関連論文リスト
- Online Continual Learning for Time Series: a Natural Score-driven Approach [2.8989185098518626]
オンライン連続学習(OCL)手法は、過去の知識を忘れずに環境の変化に適応する。
オンライン時系列予測(OTSF)は、データが時間とともに進化し、成功は、迅速な適応と長期記憶の両方に依存する現実世界の問題である。
本稿では,時系列法とOCLの理論的および実践的関係を強化することを目的とする。
論文 参考訳(メタデータ) (2026-01-19T10:31:01Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Efficient Conditional Generation on Scale-based Visual Autoregressive Models [26.81493253536486]
効率的な制御モデル(英語: Efficient Control Model、ECM)は、分散アーキテクチャを介して制御信号を導入する軽量制御モジュールを備えたプラグイン・アンド・プレイフレームワークである。
ECMは、リアルタイムに生成されたトークンと、その限られた容量の利用を最大化するために設計された共有フィードフォワードネットワーク(FFN)を用いて、条件付き機能を洗練する。
提案手法は,既存のベースラインを越えつつ,トレーニングと推論の効率を大幅に向上させるとともに,画像生成に対する高忠実かつ多様な制御を実現する。
論文 参考訳(メタデータ) (2025-10-07T06:27:03Z) - Deep Generative Continual Learning using Functional LoRA: FunLoRA [12.547444644243543]
共通の戦略は、忘れを和らげるために、生成モデルを自身の合成データで再訓練することである。
低階適応(LoRA)に基づく生成モデルのための新しい、より表現力のある条件付け機構を提案する。
提案手法は,拡散モデルに基づく先行技術結果を上回るパラメータ効率細調整(PEFT)手法である。
論文 参考訳(メタデータ) (2025-10-03T00:18:05Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。