論文の概要: LLMs for High-Frequency Decision-Making: Normalized Action Reward-Guided Consistency Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.02680v1
- Date: Tue, 03 Mar 2026 07:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.684288
- Title: LLMs for High-Frequency Decision-Making: Normalized Action Reward-Guided Consistency Policy Optimization
- Title(参考訳): 高周波意思決定のためのLCM:正規化アクションリワード誘導整合性ポリシー最適化
- Authors: Yang Zhao, Zihao Li, Zhiyu Jiang, Dandan Ma, Ganchao Liu, Wenzhe Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、シーケンシャルな意思決定エージェント開発の基礎となる。
本稿では,正規化アクションリワード誘導一貫性ポリシー最適化を提案する。
典型的な高周波タスクであるUAV追従実験により,本手法は独立タスクおよび複合タスクにおいて優れた性能を示すことを示す。
- 参考スコア(独自算出の注目度): 12.894668119938663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) form the cornerstone of sequential decision-making agent development, they have inherent limitations in high-frequency decision tasks. Existing research mainly focuses on discrete embodied decision scenarios with low-frequency and significant semantic differences in state space (e.g., household planning). These methods suffer from limited performance in high-frequency decision-making tasks, since high-precision numerical state information in such tasks undergoes frequent updates with minimal fluctuations, and exhibiting policy misalignment between the learned sub-tasks and composite tasks. To address these issues, this paper proposes Normalized Action Reward guided Consistency Policy Optimization (NAR-CP). 1) Our method first acquires predefined dense rewards from environmental feedback of candidate actions via reward functions, then completes reward shaping through normalization, and theoretically verifies action reward normalization does not impair optimal policy. 2) To reduce policy misalignment in composite tasks, we use LLMs to infer sub-observation candidate actions and generate joint policies, with consistency loss ensuring precise alignment between global semantic policies and sub-semantic policies. Experiments on UAV pursuit, a typical high-frequency task, show our method delivers superior performance on independent and composite tasks with excellent generalization to unseen tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)はシーケンシャルな意思決定エージェント開発の基礎となっているが、高周波決定タスクには固有の制限がある。
既存の研究は主に、低周波かつ有意な状態空間のセマンティックな違い(世帯計画など)を持つ離散的な具体的決定シナリオに焦点を当てている。
これらの手法は, 高精度な数値状態情報を最小限の揺らぎで頻繁な更新を行い, 学習したサブタスクと複合タスク間のポリシーの不整合を示すため, 高周波意思決定タスクにおいて限られた性能に悩まされる。
これらの課題に対処するため,本論文では,正規化アクションリワード誘導一貫性ポリシー最適化(NAR-CP)を提案する。
1) 本手法はまず, 報酬関数を用いた環境フィードバックから, 報酬の正規化による報酬形成を完了し, 行動報酬正規化が最適方針を損なわないことを理論的に検証する。
2) 複合作業における政策の不整合を低減するため,LLMを用いて,グローバルセマンティックポリシとサブセマンティックポリシの整合性を確保するとともに,サブオブザービング候補アクションを推論し,共同ポリシを生成する。
典型的な高周波タスクであるUAV追従実験により,本手法は独立タスク,複合タスクにおいて優れた性能を示し,未確認タスクへの優れた一般化を実現している。
関連論文リスト
- When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering [10.01278648231868]
ポリシーステアリングは、デプロイ時にロボットの振る舞いを適用する新しい方法です。
VLM(Vision-Language Models)は、それらの推論能力のために、汎用的な検証を約束する。
セマンティックタスクの不確実性と低レベルのアクション実現可能性について共同で理由づけるフレームワークである不確実性対応型ポリシーステアリング(UPS)を提案する。
論文 参考訳(メタデータ) (2026-02-25T23:23:22Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Enhancing Decision-Making of Large Language Models via Actor-Critic [28.870961806283425]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げている。
既存の方法は、ロールアウトを正確にシミュレートし、結果を評価する際に、短期的な自己回帰的な行動生成か、制限に直面している。
本稿では,LLM をベースとした Actor-Critic フレームワーク LAC を提案する。
論文 参考訳(メタデータ) (2025-06-04T14:58:27Z) - Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments [40.869524679544824]
Posterior and Diversity Synergized Task Smpling (PDTS) は、高速かつ堅牢なシーケンシャルな意思決定を実現するための、実装が容易な方法である。
PDTSは、堅牢なアクティブタスクサンプリングの可能性を解き、挑戦的なタスクにおけるゼロショットおよび少数ショット適応ロバスト性を大幅に改善し、特定のシナリオ下での学習プロセスを加速する。
論文 参考訳(メタデータ) (2025-04-27T07:27:17Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Active Fine-Tuning of Multi-Task Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - On the Value of Myopic Behavior in Policy Reuse [67.37788288093299]
未知のシナリオで学習戦略を活用することは、人間の知性の基本である。
本稿では,Selectivemyopic bEhavior Control(SMEC)というフレームワークを提案する。
SMECは、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的行動を適応的に集約し、協調的な決定につながる。
論文 参考訳(メタデータ) (2023-05-28T03:59:37Z) - Towards an Understanding of Default Policies in Multitask Policy
Optimization [29.806071693039655]
近年の強化学習の成功の多くは、正規化ポリシー最適化(RPO)アルゴリズムによって推進されている。
このギャップを埋める第一歩として、デフォルトポリシーの品質と最適化の効果を正式にリンクします。
次に,高い性能保証を有するマルチタスク学習のための原理的RPOアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-11-04T16:45:15Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。
FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。
我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-02-16T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。