論文の概要: Round-trip Reinforcement Learning: Self-Consistent Training for Better Chemical LLMs
- arxiv url: http://arxiv.org/abs/2510.01527v1
- Date: Wed, 01 Oct 2025 23:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.906758
- Title: Round-trip Reinforcement Learning: Self-Consistent Training for Better Chemical LLMs
- Title(参考訳): ラウンドトリップ強化学習:より優れた化学LLMのための自己持続的学習
- Authors: Lecheng Kong, Xiyuan Wang, Yixin Chen, Muhan Zhang,
- Abstract要約: 大規模言語モデル (LLM) は計算化学の汎用基盤モデルとして登場しつつある。
これらのモデルは、しばしば往復一貫性を欠いている。
本稿では,その一貫性を向上させるためにモデルをトレーニングする新しいフレームワークであるRound-Trip Reinforcement Learning(RTRL)を紹介する。
- 参考スコア(独自算出の注目度): 51.29260537017623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are emerging as versatile foundation models for computational chemistry, handling bidirectional tasks like reaction prediction and retrosynthesis. However, these models often lack round-trip consistency. For instance, a state-of-the-art chemical LLM may successfully caption a molecule, yet be unable to accurately reconstruct the original structure from its own generated text. This inconsistency suggests that models are learning unidirectional memorization rather than flexible mastery. Indeed, recent work has demonstrated a strong correlation between a model's round-trip consistency and its performance on the primary tasks. This strong correlation reframes consistency into a direct target for model improvement. We therefore introduce Round-Trip Reinforcement Learning (RTRL), a novel framework that trains a model to improve its consistency by using the success of a round-trip transformation as a reward signal. We further propose an iterative variant where forward and reverse mappings alternately train each other in a self-improvement loop, a process that is highly data-efficient and notably effective with the massive amount of unlabelled data common in chemistry. Experiments demonstrate that RTRL significantly \textbf{boosts performance and consistency} over strong baselines across supervised, self-supervised, and synthetic data regimes. This work shows that round-trip consistency is not just a desirable property but a trainable objective, offering a new path toward more robust and reliable foundation models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、反応予測や再合成といった双方向のタスクを扱う、計算化学のための汎用的な基礎モデルとして登場している。
しかし、これらのモデルは、しばしば往復一貫性を欠いている。
例えば、最先端の化学LLMは、分子をキャプションすることに成功したが、独自の生成したテキストから元の構造を正確に再構築することはできない。
この矛盾は、モデルが柔軟な熟達よりも一方向記憶を学習していることを示唆している。
実際、最近の研究は、モデルのラウンドトリップ一貫性と主要なタスクにおけるパフォーマンスとの間に強い相関関係を示している。
この強い相関関係は、一貫性をモデル改善の直接的なターゲットに再配置します。
そこで本稿では,ラウンドトリップ強化学習(RTRL)について紹介する。このフレームワークは,ラウンドトリップ変換の成功を報奨信号として利用することにより,モデルの一貫性を向上させるためのモデルをトレーニングする新しいフレームワークである。
さらに,前と逆の写像が相互に自己改善ループで交互に訓練する反復的変種を提案する。
実験により、RTRLは、教師付き、自己教師付き、合成データレジームをまたいだ強いベースラインに対して、明らかに「textbf{boosts performance and consistency}」を示す。
この研究は、ラウンドトリップの一貫性が望ましい特性であるだけでなく、トレーニング可能な目的であることを示し、より堅牢で信頼性の高い基盤モデルへの新たな道筋を提供する。
関連論文リスト
- Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Post-Training Language Models for Continual Relation Extraction [1.366732114025733]
本研究では,事前学習言語モデル(PLM),特に大規模言語モデル(LLM)を知識グラフに適用することを検討した。
我々は,TACREDおよびFewRelデータセット上で,デコーダのみのモデル(Mistral-7BとLlama2-7B)とエンコーダ-デコーダモデル(Flan-T5 Base)を評価する。
論文 参考訳(メタデータ) (2025-04-07T16:01:22Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。