Fugu-MT 論文翻訳(概要): QuantumQA: Enhancing Scientific Reasoning via Physics-Consistent Dataset and Verification-Aware Reinforcement Learning

論文の概要: QuantumQA: Enhancing Scientific Reasoning via Physics-Consistent Dataset and Verification-Aware Reinforcement Learning

arxiv url: http://arxiv.org/abs/2604.18176v1
Date: Mon, 20 Apr 2026 12:33:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.86276
Title: QuantumQA: Enhancing Scientific Reasoning via Physics-Consistent Dataset and Verification-Aware Reinforcement Learning
Title（参考訳）: 量子QA:物理一貫性データセットと検証型強化学習による科学的推論の強化
Authors: Songxin Qu, Tai-Ping Sun, Yun-Jie Wang, Huan-Yu Liu, Cheng Xue, Xiao-Fan Xu, Han Fang, Yang Yang, Yu-Chun Wu, Guo-Ping Guo, Zhao-Yun Chen,
Abstract要約: 本稿では,タスク適応戦略によって構築された大規模データセットQuantumQAを紹介する。 RLVR(Reinforcement Learning with Verifiable Rewards)に適したVRM(Verified-Aware reward model)を提案する。
参考スコア（独自算出の注目度）: 19.224968023943052
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) show strong capabilities in general reasoning but typically lack reliability in scientific domains like quantum mechanics, which demand strict adherence to physical constraints. This limitation arises from the scarcity of verifiable training resources and the inadequacy of coarse feedback signals in standard alignment paradigms. To address the data challenge, we introduce QuantumQA, a large-scale dataset constructed via a task-adaptive strategy and a hybrid verification protocol that combines deterministic solvers with semantic auditing to guarantee scientific rigor. Building on this foundation, we propose the verification-aware reward model (VRM) tailored for Reinforcement Learning with Verifiable Rewards (RLVR), which employs an adaptive reward fusion (ARF) mechanism to dynamically integrate deterministic signals from a scientific execution suite (SES) with multidimensional semantic evaluations for precise supervision. Experimental results demonstrate that our method consistently outperforms baselines and general-purpose preference models. Notably, our optimized 8B model achieves performance competitive with proprietary models, validating that incorporating verifiable, rule-based feedback into the reinforcement learning loop offers a parameter-efficient alternative to pure scaling.
Abstract（参考訳）: 大規模言語モデル(LLM)は、一般的な推論において強い能力を示すが、典型的には物理的制約に厳格な従順性を要求する量子力学のような科学的領域では信頼性が欠如している。この制限は、検証可能なトレーニングリソースの不足と、標準アライメントパラダイムにおける粗いフィードバック信号の不適切さから生じる。データ問題に対処するために、タスク適応戦略と、決定論的解法とセマンティック監査を組み合わせて科学的厳密性を保証するハイブリッド検証プロトコルによって構築された大規模データセットQuantumQAを紹介する。本稿では, 適応型報酬融合(ARF)機構を用いて, 科学的実行スイート(SES)から決定論的信号を動的に統合し, 精密監視のための多次元意味的評価を行う, 検証対応報酬モデル(VRM)を提案する。実験結果から,本手法はベースラインや汎用的嗜好モデルよりも一貫して優れていることが示された。特に、最適化された8Bモデルは、プロプライエタリなモデルと性能の競合を実現し、検証可能なルールベースのフィードバックを強化学習ループに組み込むことで、純粋なスケーリングに代わるパラメータ効率の代替となることを検証した。

関連論文リスト

A Graph Foundation Model for Wireless Resource Allocation [37.503398874234094]
本稿では、事前学習および微調整のパラダイムに基づく資源配分のためのグラフ基盤モデルを提案し、統一表現を抽出する。具体的には、干渉トポロジをグローバルアテンション機構に注入するバイアスプロジェクタを備えた干渉対応トランスフォーマーアーキテクチャを提案する。実験により,提案するフレームワークは,モデルキャパシティを向上して,最先端のパフォーマンスを実現し,効果的にスケールできることが示されている。
論文参考訳（メタデータ） (2026-04-08T06:07:28Z)
Native Reasoning Models: Training Language Models to Reason on Unverifiable Data [16.065264121785294]
NRT(Native Reasoning Training)は、複雑な推論を育む新しいフレームワークである。 NRTは、推論プロセスを潜在変数として扱うことで、トレーニング問題を再構築する。 NRTは検証不要な手法の最先端性能を実現する。
論文参考訳（メタデータ） (2026-02-12T04:15:46Z)
Quantum-Aware Generative AI for Materials Discovery: A Framework for Robust Exploration Beyond DFT Biases [0.0]
材料発見のための量子認識型生成AIフレームワークを提案する。我々は、低忠実度予測と高忠実度予測の分岐を定量化し、ターゲットとする頑健な能動学習ループを実装した。以上の結果から,高分散領域における潜在的安定候補の同定に成功し,3～5倍の精度向上が得られた。
論文参考訳（メタデータ） (2025-12-13T11:17:21Z)
EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning [63.03672166010434]
我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。問題、多様な候補解、検証成果物を共同で合成する。これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
論文参考訳（メタデータ） (2025-10-20T11:56:35Z)
RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。コードとデータセットを含む、対応するリソースをリリースしました。
論文参考訳（メタデータ） (2025-09-18T07:35:58Z)
High-Fidelity Scientific Simulation Surrogates via Adaptive Implicit Neural Representations [51.90920900332569]
入射神経表現(INR)は空間的に構造化されたデータをモデリングするためのコンパクトで連続的なフレームワークを提供する。近年のアプローチでは、剛性幾何学的構造に沿った付加的な特徴を導入することでこの問題に対処している。機能適応型INR(FA-INR)を提案する。
論文参考訳（メタデータ） (2025-06-07T16:45:17Z)
Enhancing Security in Federated Learning through Adaptive Consensus-Based Model Update Validation [2.28438857884398]
本稿では,ラベルフリップ攻撃に対して,FL(Federated Learning)システムを構築するための高度なアプローチを提案する。本稿では,適応的しきい値設定機構と統合されたコンセンサスに基づく検証プロセスを提案する。以上の結果から,FLシステムのレジリエンスを高め,ラベルフリップ攻撃の顕著な緩和効果が示唆された。
論文参考訳（メタデータ） (2024-03-05T20:54:56Z)
InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。 InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文参考訳（メタデータ） (2024-02-14T17:49:07Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。