論文の概要: LinguaFluid: Language Guided Fluid Control via Semantic Rewards in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.05977v2
- Date: Thu, 14 Aug 2025 07:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.568075
- Title: LinguaFluid: Language Guided Fluid Control via Semantic Rewards in Reinforcement Learning
- Title(参考訳): LinguaFluid:強化学習におけるセマンティック・リワードによる言語指導型流体制御
- Authors: Aoming Liang, Chi Cheng, Dashuai Chen, Boai Sun, Dixia Fan,
- Abstract要約: 本研究では,現在状態と目標意味的指示とを一致させて報酬を計算できる意味的整合強化学習手法を提案する。
我々は,手作りの報酬関数がなくても,意味報酬は学習を指導して,競争力のある制御動作を実現することができることを示した。
このフレームワークは、エージェントの振る舞いを自然言語の目標と整合させるための新たな地平を開き、より大きな言語モデルのよりシームレスな統合の基礎となる。
- 参考スコア(独自算出の注目度): 0.7864304771129751
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the domain of scientific machine learning, designing effective reward functions remains a challenge in reinforcement learning (RL), particularly in environments where task goals are difficult to specify numerically. Reward functions in existing work are predominantly based on heuristics, manual engineering, or task-specific tuning. In this work, we introduce a semantically aligned reinforcement learning method where rewards are computed by aligning the current state with a target semantic instruction using a Sentence-Bidirectional Encoder Representations from Transformers (SBERT). Instead of relying on manually defined reward functions, the policy receives feedback based on the reward, which is a cosine similarity between the goal textual description and the statement description in the episode. We evaluated our approach in several environments and showed that semantic reward can guide learning to achieve competitive control behavior, even in the absence of hand-crafted reward functions. Our study demonstrates a correlation between the language embedding space and the conventional Euclidean space. This framework opens new horizons for aligning agent behavior with natural language goals and lays the groundwork for a more seamless integration of larger language models (LLMs) and fluid control applications.
- Abstract(参考訳): 科学的機械学習の分野では、効果的な報酬関数を設計することは強化学習(RL)において依然として課題であり、特にタスク目標を数値的に特定することが難しい環境においてである。
既存の作業におけるリワード機能は、主にヒューリスティックス、手動工学、タスク固有のチューニングに基づいている。
本研究では,SBERT (Sentence-Bidirectional Encoder Representations from Transformers) を用いて,現在状態と目標意味指示とを一致させて報酬を計算できる意味的整合強化学習手法を提案する。
手動で定義された報酬関数に頼る代わりに、このポリシーは報酬に基づいてフィードバックを受け取る。
提案手法をいくつかの環境で評価し,手作りの報酬関数がなくても,セマンティック報酬が学習を指導し,競争的な制御行動を実現することを示した。
本研究では,言語埋め込み空間と従来のユークリッド空間との相関性を示す。
このフレームワークは、エージェントの振る舞いを自然言語の目標と整合させるための新たな地平を開き、より大きな言語モデル(LLM)と流体制御アプリケーションとのよりシームレスな統合の基礎となる。
関連論文リスト
- FOUNDER: Grounding Foundation Models in World Models for Open-Ended Embodied Decision Making [32.050134958163184]
ファンデーションモデル(FM)とワールドモデル(WM)は、異なるレベルでタスクの一般化において補完的な強みを提供する。
本稿では、FMに埋め込まれた一般化可能な知識とWMの動的モデリング機能を統合するフレームワークであるFOUNDERを提案する。
我々は、WM状態空間におけるFM表現を基底としたマッピング関数を学習し、外部観測から世界シミュレータにおけるエージェントの物理状態を効果的に推定する。
論文 参考訳(メタデータ) (2025-07-15T21:49:49Z) - Subtask-Aware Visual Reward Learning from Segmented Demonstrations [97.80917991633248]
本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。
我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。
実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-28T01:25:37Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - A Pattern Language for Machine Learning Tasks [0.0]
学習者の合成に対する等式制約として,目的関数の本質的データを定式化する。
1)ドメイン間における機械学習のアプローチの統一的な視点を提供し,(2)望ましい振る舞いをモデルに依存しない設計と最適化し,(3)理論的コンピュータ科学からの洞察を実践的な機械学習へインポートする。
論文 参考訳(メタデータ) (2024-07-02T16:50:27Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement
Learning with Sub-optimal Demonstrations [25.536792010283566]
逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。
本稿では,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを紹介する。
本フレームワークは,従来のSOTA手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T02:38:35Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z) - Discovering Generalizable Spatial Goal Representations via Graph-based
Active Reward Learning [17.58129740811116]
我々は、報酬学習アプローチ、グラフベースの等価マッピング(GEM)を提案する。
GEMは、オブジェクト間の重要な空間関係を示すグラフと、グラフの各エッジに対する状態同値写像による空間目標仕様を表す。
GEMは,学習目標表現の高次ベースラインに対する一般化性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-24T18:59:06Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。