論文の概要: Interactive Symbolic Regression through Offline Reinforcement Learning: A Co-Design Framework
- arxiv url: http://arxiv.org/abs/2502.02917v2
- Date: Tue, 11 Feb 2025 00:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:08:44.237828
- Title: Interactive Symbolic Regression through Offline Reinforcement Learning: A Co-Design Framework
- Title(参考訳): オフライン強化学習による対話型シンボリック回帰:共同設計フレームワーク
- Authors: Yuan Tian, Wenqi Zhou, Michele Viscione, Hao Dong, David Kammer, Olga Fink,
- Abstract要約: シンボリック回帰は、観測データから基礎となる数学的および物理的関係を明らかにする大きな可能性を秘めている。
現在の最先端のアプローチは、通常、ドメインエキスパートの事前知識の統合を考慮していない。
本稿では,大規模な記号回帰のための高度な対話型フレームワークであるSym-Qを提案する。
- 参考スコア(独自算出の注目度): 11.804368618793273
- License:
- Abstract: Symbolic Regression (SR) holds great potential for uncovering underlying mathematical and physical relationships from observed data. However, the vast combinatorial space of possible expressions poses significant challenges for both online search methods and pre-trained transformer models. Additionally, current state-of-the-art approaches typically do not consider the integration of domain experts' prior knowledge and do not support iterative interactions with the model during the equation discovery process. To address these challenges, we propose the Symbolic Q-network (Sym-Q), an advanced interactive framework for large-scale symbolic regression. Unlike previous large-scale transformer-based SR approaches, Sym-Q leverages reinforcement learning without relying on a transformer-based decoder. This formulation allows the agent to learn through offline reinforcement learning using any type of tree encoder, enabling more efficient training and inference. Furthermore, we propose a co-design mechanism, where the reinforcement learning-based Sym-Q facilitates effective interaction with domain experts at any stage of the equation discovery process. Users can dynamically modify generated nodes of the expression, collaborating with the agent to tailor the mathematical expression to best fit the problem and align with the assumed physical laws, particularly when there is prior partial knowledge of the expected behavior. Our experiments demonstrate that the pre-trained Sym-Q surpasses existing SR algorithms on the challenging SSDNC benchmark. Moreover, we experimentally show on real-world cases that its performance can be further enhanced by the interactive co-design mechanism, with Sym-Q achieving greater performance gains than other state-of-the-art models. Our reproducible code is available at https://github.com/EPFL-IMOS/Sym-Q.
- Abstract(参考訳): シンボリック回帰(SR)は、観測データから基礎となる数学的・物理的関係を明らかにする大きな可能性を秘めている。
しかし、可能な表現の膨大な組み合わせ空間は、オンライン検索法と事前学習されたトランスフォーマーモデルの両方に重大な課題をもたらす。
さらに、現在の最先端のアプローチは、通常、ドメインエキスパートの事前知識の統合を考慮せず、方程式発見プロセス中にモデルとの反復的な相互作用をサポートしない。
これらの課題に対処するために,大規模な記号回帰のための高度な対話型フレームワークであるSym-Qを提案する。
以前の大規模トランスフォーマーベースのSRアプローチとは異なり、Sym-Qはトランスフォーマーベースのデコーダに頼ることなく強化学習を利用する。
この定式化により、エージェントは任意の種類のツリーエンコーダを使用してオフラインの強化学習を通じて学習することができ、より効率的なトレーニングと推論が可能になる。
さらに、強化学習に基づくSym-Qは、方程式発見プロセスの任意の段階において、ドメインエキスパートとの効果的な相互作用を促進する、協調設計機構を提案する。
ユーザーは、生成した表現のノードを動的に修正し、エージェントと協調して問題に最もよく適合するように数学的表現を調整し、仮定された物理法則、特に期待される振る舞いについて事前の部分的知識がある場合に、一致させることができる。
実験により,事前学習したSym-Qは,SSDNCベンチマークにおいて既存のSRアルゴリズムを超越していることが示された。
さらに,Sym-Qが他の最先端モデルよりも高い性能向上を実現し,インタラクティブな協調設計機構によってその性能をさらに向上できる実世界の事例を実験的に示す。
私たちの再現可能なコードはhttps://github.com/EPFL-IMOS/Sym-Q.comで公開されています。
関連論文リスト
- Test-time regression: a unifying framework for designing sequence models with associative memory [24.915262407519876]
実効的なシーケンスモデルでは連想的リコールを実行できなければならないことを示す。
私たちのキーとなる洞察は、連想メモリを通じて入力トークンを記憶することは、テスト時に回帰を実行することと等価であるということです。
線形アテンションモデル、ゲート変数、状態空間モデル、オンライン学習者、ソフトマックスアテンションなどを含む最近のアーキテクチャは、テスト時間回帰に対する特定のアプローチとして自然に現れています。
論文 参考訳(メタデータ) (2025-01-21T18:32:31Z) - Representation Learning with Parameterised Quantum Circuits for Advancing Speech Emotion Recognition [37.98283871637917]
音声感情認識(SER)は、特徴の複雑な依存性と、音声を通して伝達される感情表現の重なり合う性質により、人間とコンピュータの相互作用において複雑なタスクである。
本稿では、畳み込み量子回路と従来のコナールニューラルネットワーク(CNN)アーキテクチャを統合するハイブリッド古典量子フレームワークを提案する。
重ね合わせや絡み合わせなどの量子特性を活用することにより、提案モデルは特徴表現を強化し、古典的手法よりも複雑な依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2025-01-21T11:23:38Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Interactive Symbolic Regression through Offline Reinforcement Learning: A Co-Design Framework [11.804368618793273]
シンボリック回帰は、観測データから基礎となる数学的および物理的関係を明らかにする大きな可能性を秘めている。
現在の最先端のアプローチは、通常、ドメインエキスパートの事前知識の統合を考慮していない。
本稿では,大規模な記号回帰のための高度な対話型フレームワークであるSym-Qを提案する。
論文 参考訳(メタデータ) (2024-02-07T22:53:54Z) - Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。
既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。
本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文 参考訳(メタデータ) (2023-12-30T17:05:31Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Transformer-based Planning for Symbolic Regression [18.90700817248397]
シンボリック・レグレッションのためのトランスフォーマーに基づく計画戦略であるTPSRを提案する。
従来の復号法とは異なり、TPSRは精度や複雑さなど、微分不可能なフィードバックの統合を可能にする。
我々の手法は最先端の手法より優れており、モデルの適合・複雑性トレードオフ、象徴的能力、騒音に対する堅牢性を高めている。
論文 参考訳(メタデータ) (2023-03-13T03:29:58Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。