論文の概要: Bridging the Domain Gap in Equation Distillation with Reinforcement Feedback
- arxiv url: http://arxiv.org/abs/2505.15572v1
- Date: Wed, 21 May 2025 14:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.69878
- Title: Bridging the Domain Gap in Equation Distillation with Reinforcement Feedback
- Title(参考訳): 強化フィードバックを伴う方程式蒸留における領域ギャップのブリッジ化
- Authors: Wangyang Ying, Haoyue Bai, Nanxu Gong, Xinyuan Wang, Sixun Dong, Haifeng Chen, Yanjie Fu,
- Abstract要約: データ2Eqnタスクの基本モデルのドメイン適応性を高めるための強化学習に基づく微調整フレームワークを提案する。
提案手法により,モデルが特定の複雑なデータ分布に適応し,数学的に意味のある方程式を生成することができる。
- 参考スコア(独自算出の注目度): 37.06543502352577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The data-to-equation (Data2Eqn) task aims to discover interpretable mathematical equations that map observed values to labels, offering physical insights and broad applicability across academic and industrial domains. Genetic programming and traditional deep learning-based approaches suffer from search inefficiency and poor generalization on small task-specific datasets. Foundation models showed promise in this area, but existing approaches suffer from: 1) They are pretrained on general-purpose data distributions, making them less effective for domain-specific tasks; and 2) their training objectives focus on token-level alignment, overlooking mathematical semantics, which can lead to inaccurate equations. To address these issues, we aim to enhance the domain adaptability of foundation models for Data2Eqn tasks. In this work, we propose a reinforcement learning-based finetuning framework that directly optimizes the generation policy of a pretrained model through reward signals derived from downstream numerical fitness. Our method allows the model to adapt to specific and complex data distributions and generate mathematically meaningful equations. Extensive experiments demonstrate that our approach improves both the accuracy and robustness of equation generation under complex distributions.
- Abstract(参考訳): Data-to-equation(Data2Eqn)タスクは、観測された値をラベルにマッピングする解釈可能な数学的方程式を発見し、物理的洞察と学術的および工業的領域にまたがる幅広い適用性を提供することを目的としている。
遺伝的プログラミングと従来のディープラーニングベースのアプローチは、小さなタスク固有のデータセットに対する探索の非効率性と一般化の貧弱さに悩まされている。
ファンデーションモデルはこの分野で有望であるが、既存のアプローチは以下の通りである。
1)汎用データ配信に事前訓練を施し,ドメイン特化タスクに対する効果を低下させる。
2) 学習目的は,不正確な方程式につながる可能性のある数学的意味論を見越して,トークンレベルのアライメントに重点を置いている。
これらの課題に対処するため、我々はData2Eqnタスクの基礎モデルのドメイン適応性を高めることを目指している。
本研究では,下流の数値適合度から得られる報酬信号を通じて,事前学習モデルの生成方針を直接最適化する強化学習に基づく微調整フレームワークを提案する。
提案手法により,モデルが特定の複雑なデータ分布に適応し,数学的に意味のある方程式を生成することができる。
大規模実験により, 複素分布下での方程式生成の精度とロバスト性の向上が示された。
関連論文リスト
- Physics-Informed Diffusion Models [0.0]
生成モデルと偏微分方程式の充足を統一する枠組みを提案する。
本手法は,流体流動ケーススタディにおける従来の研究と比較して,残差を最大2桁まで低減する。
論文 参考訳(メタデータ) (2024-03-21T13:52:55Z) - Self-Supervised Learning with Lie Symmetries for Partial Differential
Equations [25.584036829191902]
我々は、自己教師付き学習(SSL)のための共同埋め込み手法を実装することにより、PDEの汎用表現を学習する。
我々の表現は、PDEの係数の回帰などの不変タスクに対するベースラインアプローチよりも優れており、また、ニューラルソルバのタイムステッピング性能も向上している。
提案手法がPDEの汎用基盤モデルの開発に有効であることを期待する。
論文 参考訳(メタデータ) (2023-07-11T16:52:22Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - Domain Adaptation Principal Component Analysis: base linear method for
learning with out-of-distribution data [55.41644538483948]
ドメイン適応は現代の機械学習において一般的なパラダイムである。
ドメイン適応主成分分析(DAPCA)という手法を提案する。
DAPCAは、領域適応タスクの解決に有用な線形化データ表現を見つける。
論文 参考訳(メタデータ) (2022-08-28T21:10:56Z) - Algorithms and Theory for Supervised Gradual Domain Adaptation [19.42476993856205]
本研究では, 学習者に対して, 学習経路に沿った変化分布からラベル付きデータを利用できるようにするための, 教師付き段階的領域適応の課題について検討する。
この設定の下では、軽度な仮定の下で学習誤差に関する最初の一般化上限を提供する。
本研究の結果は, 損失関数の範囲に依存しないアルゴリズムであり, 軌道上の平均学習誤差にのみ依存する。
論文 参考訳(メタデータ) (2022-04-25T13:26:11Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - BiFair: Training Fair Models with Bilevel Optimization [8.2509884277533]
我々は,ユーティリティの最小化と公正な関心の喪失を両立させる,BiFairという新しいトレーニングアルゴリズムを開発した。
我々のアルゴリズムは、常により良い性能、すなわち、与えられた公正度メトリックのより優れた値、あるいはより高い精度で到達する。
論文 参考訳(メタデータ) (2021-06-03T22:36:17Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。