論文の概要: Aligning Reasoning LLMs for Materials Discovery with Physics-aware Rejection Sampling
- arxiv url: http://arxiv.org/abs/2509.00768v1
- Date: Sun, 31 Aug 2025 09:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.384781
- Title: Aligning Reasoning LLMs for Materials Discovery with Physics-aware Rejection Sampling
- Title(参考訳): 物理認識型リジェクションサンプリングによる材料発見のためのアライニングリゾニングLDM
- Authors: Lee Hyun, Sohee Yoon, Jinwoo Park, Sue In Chae, Seongeon Park, Jooyeon Ahn, Yebin Jung, Youjung Chung, Hogeun Chang, Myeonginn Kang, Jina Kim, Ho-Gyeong Kim, Myeonghun Jeong,
- Abstract要約: 本稿では,物理認識型リジェクションサンプリング(PaRS)について紹介する。
PaRSは基礎物理学と整合したトレースを好んでおり、計算を制御するために軽量に停止する。
本手法は精度と校正性を向上し,物理違反率を低減し,基準値に対するサンプリングコストを低減させる。
- 参考スコア(独自算出の注目度): 12.81929082530077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-driven materials discovery that couples automated experimentation with algorithmic decision-making requires process aware recipe to property predictors that are accurate, calibrated, and physically admissible. We approach this as a reasoning problem with large reasoning models (LRMs). To instill reasoning capability into language models, we curate reasoning traces from a teacher model to train a student model. However, most training pipelines select reasoning traces using binary correctness or learned preference signals that poorly reflect physical admissibility. We introduce Physics-aware Rejection Sampling (PaRS), a training-time trace selection scheme that favors traces consistent with fundamental physics and numerically close to targets, with lightweight halting to control compute. We instantiate our framework with a large student model fine-tuned on traces synthesized by a larger teacher model, and evaluate under matched token budgets against various rejection sampling baselines. Our method improves accuracy and calibration, reduces physics-violation rates, and lowers sampling cost relative to baselines. These results indicate that modest, domain-aware constraints combined with trace-level selection provide a practical path toward reliable, efficient LRMs for process-aware property prediction and closed-loop materials design.
- Abstract(参考訳): アルゴリズムによる意思決定と自動実験を組み合わせたAI駆動の材料発見では、正確で、校正され、物理的に許容できる特性予測器へのプロセス対応のレシピが必要である。
我々はこれを大推理モデル(LRM)による推論問題としてアプローチする。
言語モデルに推論能力を組み込むため、教師モデルからの推論トレースをキュレートし、学生モデルを訓練する。
しかし、ほとんどのトレーニングパイプラインは、二項正当性や学習された嗜好信号を用いて推論トレースを選択する。
本研究では,基礎物理学と整合性を持ち,目標に数値的に近接するトレースを選択する訓練時間トレース選択方式であるPaRSを導入し,計算制御を軽量に停止する。
我々は,大規模な教師モデルによって合成されたトレースを微調整した大規模学生モデルを用いて,我々のフレームワークをインスタンス化し,様々な拒絶サンプリングベースラインに対して一致するトークン予算で評価する。
本手法は精度と校正性を向上し,物理違反率を低減し,基準値に対するサンプリングコストを低減させる。
これらの結果から, プロセス認識特性予測や閉ループ材料設計において, ドメイン認識制約とトレースレベルの選択を併用することで, 信頼性, 効率的なLEMへの実践的な道筋が得られた。
関連論文リスト
- Reasoning Model Unlearning: Forgetting Traces, Not Just Answers, While Preserving Reasoning Skills [32.96074934023323]
大きな推論モデル(LRM)は、テスト時間計算を通じて強力なチェーン・オブ・シント(CoT)生成を可能にした。
従来の未学習アルゴリズムは、もともと非推論モデル用に設計されていたが、LRMには不適当であることを示す。
本稿では,意味のある推論トレースを効果的に抑制する新しい手法であるReasoning-aware Representation Misdirection for Unlearning(R2MU$)を提案する。
論文 参考訳(メタデータ) (2025-06-15T20:54:23Z) - Flow Matching Meets PDEs: A Unified Framework for Physics-Constrained Generation [21.321570407292263]
本稿では,PDE残差と代数的関係の両方の物理制約をフローマッチングの対象に組み込む生成フレームワークである物理ベースフローマッチングを提案する。
提案手法では,FMよりも高精度な物理残差を最大8倍に抑えながら,分布精度では既存アルゴリズムよりも明らかに優れていることを示す。
論文 参考訳(メタデータ) (2025-06-10T09:13:37Z) - Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.5855749614100825]
本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。
我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。
本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文 参考訳(メタデータ) (2025-05-25T23:17:47Z) - How Is LLM Reasoning Distracted by Irrelevant Context? An Analysis Using a Controlled Benchmark [29.13320560500717]
分散文脈をもつ小学校数学は、体系的に制御された文脈 (IC) に対するLarge Language Models (LLM) 推論を評価するためのベンチマークである。
実験の結果,LLMはICに非常に敏感であり,推理経路の選択と算術精度の両方に影響を及ぼすことがわかった。
本稿では,プロセス報酬モデルを用いて,配当条件下でのロバスト性を高めるステップワイズツリー探索を提案する。
論文 参考訳(メタデータ) (2025-05-24T15:56:22Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。