論文の概要: Reinforcement Learning with Physics-Informed Symbolic Program Priors for Zero-Shot Wireless Indoor Navigation
- arxiv url: http://arxiv.org/abs/2506.22365v1
- Date: Fri, 27 Jun 2025 16:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.284655
- Title: Reinforcement Learning with Physics-Informed Symbolic Program Priors for Zero-Shot Wireless Indoor Navigation
- Title(参考訳): ゼロショット無線屋内ナビゲーションのための物理インフォームドシンボルプログラムによる強化学習
- Authors: Tao Li, Haozhe Lei, Mingsheng Yin, Yaqi Hu,
- Abstract要約: 物理をエンコードする誘導バイアスは、トレーニング中のサンプル効率を改善し、テストの一般化を高めるのに役立つ。
これらの有用な物理インフォームドインダクティブバイアスを組み込む現在のプラクティスは、必然的に、重要な手作業やドメインの専門知識に結びついています。
この研究は、物理学でインフォームドされた誘導バイアスを人間可読で自然に説明可能なRLエージェントに蒸留するシンボリックアプローチを探求する。
- 参考スコア(独自算出の注目度): 4.159053490516698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When using reinforcement learning (RL) to tackle physical control tasks, inductive biases that encode physics priors can help improve sample efficiency during training and enhance generalization in testing. However, the current practice of incorporating these helpful physics-informed inductive biases inevitably runs into significant manual labor and domain expertise, making them prohibitive for general users. This work explores a symbolic approach to distill physics-informed inductive biases into RL agents, where the physics priors are expressed in a domain-specific language (DSL) that is human-readable and naturally explainable. Yet, the DSL priors do not translate directly into an implementable policy due to partial and noisy observations and additional physical constraints in navigation tasks. To address this gap, we develop a physics-informed program-guided RL (PiPRL) framework with applications to indoor navigation. PiPRL adopts a hierarchical and modularized neuro-symbolic integration, where a meta symbolic program receives semantically meaningful features from a neural perception module, which form the bases for symbolic programming that encodes physics priors and guides the RL process of a low-level neural controller. Extensive experiments demonstrate that PiPRL consistently outperforms purely symbolic or neural policies and reduces training time by over 26% with the help of the program-based inductive biases.
- Abstract(参考訳): 物理制御タスクに取り組むために強化学習(RL)を使用する場合、物理をエンコードする帰納バイアスは、トレーニング中のサンプル効率を改善し、テストの一般化を高めるのに役立つ。
しかし、これらの有用な物理インフォームドインダクティブバイアスを取り入れるという現在の実践は、必然的に重要な手作業やドメインの専門知識に結びつき、一般ユーザにとって禁止される。
本研究は, 物理インフォームドインダクティブバイアスをRLエージェントに蒸留するシンボリックアプローチを探求する。
しかし、DSLプリエントは、部分的かつノイズの多い観察とナビゲーションタスクにおける追加の物理的制約のために、実装可能なポリシーに直接変換しません。
このギャップに対処するために,物理インフォームドプログラム誘導RL(PiPRL)フレームワークを開発し,室内ナビゲーションに応用する。
PiPRLは階層的でモジュール化されたニューロシンボリック統合を採用しており、メタシンボリックプログラムは、低レベルのニューロコントローラのRLプロセスを符号化し導くシンボリックプログラミングの基盤を形成するニューロ知覚モジュールから意味論的に意味のある特徴を受け取る。
大規模な実験により、PiPRLは純粋に象徴的あるいは神経的なポリシーを一貫して上回り、プログラムベースの誘導バイアスの助けを借りてトレーニング時間を26%以上短縮することを示した。
関連論文リスト
- Principled Approaches for Extending Neural Architectures to Function Spaces for Operator Learning [78.88684753303794]
ディープラーニングは主にコンピュータビジョンと自然言語処理の応用を通じて進歩してきた。
ニューラル演算子は、関数空間間のマッピングにニューラルネットワークを一般化する原則的な方法である。
本稿では、無限次元関数空間間の写像の実践的な実装を構築するための鍵となる原理を同定し、蒸留する。
論文 参考訳(メタデータ) (2025-06-12T17:59:31Z) - Pseudo-Physics-Informed Neural Operators: Enhancing Operator Learning from Limited Data [17.835190275166408]
PPI-NO(Pseudo Physics-Informed Neural Operator)フレームワークを提案する。
PPI-NOは、基本微分作用素から導かれる偏微分方程式(PDE)を用いて、対象系に対する代理物理系を構築する。
このフレームワークは,データ共有シナリオにおける標準演算子学習モデルの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-04T19:50:06Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Evolutionary Optimization of Physics-Informed Neural Networks: Advancing Generalizability by the Baldwin Effect [22.57730294475146]
物理インフォームドニューラルネットワーク(PINN)は、科学機械学習の最前線にある。
本稿では,ボールドウィン進化の枠組みを通じて,PINNの一般化可能性を高めるための先駆的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T02:31:12Z) - Training neural networks with end-to-end optical backpropagation [1.1602089225841632]
光プロセスを用いてニューラルネットワークをトレーニングするアルゴリズムであるバックプロパゲーションの実装方法を示す。
我々のアプローチは、様々なアナログプラットフォーム、材料、ネットワーク構造に適用可能である。
これは、トレーニングタスクと推論タスクの両方において、アナログ光学プロセスに完全に依存するニューラルネットワークを構築する可能性を示している。
論文 参考訳(メタデータ) (2023-08-09T21:11:26Z) - Digital Twin-Enhanced Wireless Indoor Navigation: Achieving Efficient Environment Sensing with Zero-Shot Reinforcement Learning [21.79206567364126]
ミリ波通信は将来のモバイルネットワークにおいて重要な要素であり、複雑な環境での屋内ナビゲーションに最適である。
従来の物理学に基づく手法、例えば到着角(AoA)は複雑なシナリオでは不足することが多い。
本稿では,デジタル双生児が提供する身体的洞察を利用して,強化学習(RL)報酬関数を形作る物理情報強化学習(PIRL)手法を提案する。
論文 参考訳(メタデータ) (2023-06-11T20:33:22Z) - Great Truths are Always Simple: A Rather Simple Knowledge Encoder for
Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models [89.98762327725112]
自然言語における常識推論は、人工知能システムの望ましい能力である。
複雑なコモンセンス推論タスクを解決するための典型的な解決策は、知識対応グラフニューラルネットワーク(GNN)エンコーダで事前訓練された言語モデル(PTM)を強化することである。
有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。
論文 参考訳(メタデータ) (2022-05-04T01:27:36Z) - Training End-to-End Analog Neural Networks with Equilibrium Propagation [64.0476282000118]
本稿では,勾配降下による終端から終端までのアナログニューラルネットワークの学習法を提案する。
数学的には、アナログニューラルネットワークのクラス(非線形抵抗性ネットワークと呼ばれる)がエネルギーベースモデルであることが示される。
我々の研究は、オンチップ学習をサポートする、超高速でコンパクトで低消費電力のニューラルネットワークの新世代の開発を導くことができる。
論文 参考訳(メタデータ) (2020-06-02T23:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。