論文の概要: LLM-Enhanced Rapid-Reflex Async-Reflect Embodied Agent for Real-Time Decision-Making in Dynamically Changing Environments
- arxiv url: http://arxiv.org/abs/2506.07223v1
- Date: Sun, 08 Jun 2025 17:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.091685
- Title: LLM-Enhanced Rapid-Reflex Async-Reflect Embodied Agent for Real-Time Decision-Making in Dynamically Changing Environments
- Title(参考訳): LLMによる動的変化環境におけるリアルタイム意思決定のための高速反射型非同期共振剤の開発
- Authors: Yangqing Zheng, Shunqi Mao, Dingxin Zhang, Weidong Cai,
- Abstract要約: 意思決定の遅れは、重要かつ不十分に研究された問題として現れます。
本稿では、意思決定の遅延を等価なシミュレーションフレームに変換する時間変換機構(TCM)を提案する。
本稿では,軽量LLM誘導フィードバックモジュールとルールベースエージェントを結合したRapid-Reflect Agent(RRARA)を提案する。
- 参考スコア(独自算出の注目度): 6.227284273306464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of embodied intelligence, the evolution of large language models (LLMs) has markedly enhanced agent decision making. Consequently, researchers have begun exploring agent performance in dynamically changing high-risk scenarios, i.e., fire, flood, and wind scenarios in the HAZARD benchmark. Under these extreme conditions, the delay in decision making emerges as a crucial yet insufficiently studied issue. We propose a Time Conversion Mechanism (TCM) that translates inference delays in decision-making into equivalent simulation frames, thus aligning cognitive and physical costs under a single FPS-based metric. By extending HAZARD with Respond Latency (RL) and Latency-to-Action Ratio (LAR), we deliver a fully latency-aware evaluation protocol. Moreover, we present the Rapid-Reflex Async-Reflect Agent (RRARA), which couples a lightweight LLM-guided feedback module with a rule-based agent to enable immediate reactive behaviors and asynchronous reflective refinements in situ. Experiments on HAZARD show that RRARA substantially outperforms existing baselines in latency-sensitive scenarios.
- Abstract(参考訳): エンボディードインテリジェンス(英語版)の領域では、大規模言語モデル(LLM)の進化はエージェント決定を著しく強化した。
その結果、研究者はHAZARDベンチマークでハイリスクシナリオ、すなわち火災、洪水、風のシナリオを動的に変化させるエージェントのパフォーマンスを探求し始めた。
こうした極端な状況下では、意思決定の遅れは重要かつ不十分に研究された問題として現れる。
本稿では,意思決定における推論遅延を等価なシミュレーションフレームに変換する時間変換機構(TCM)を提案する。
HAZARDをRL(Respond Latency)とLAR(Latency-to-Action Ratio)で拡張することにより、完全なレイテンシ対応評価プロトコルを提供する。
さらに,軽量LLM誘導フィードバックモジュールとルールベースエージェントを結合したRapid-Reflex Async-Reflect Agent (RRARA)を提案する。
HAZARDの実験によると、RRARAはレイテンシに敏感なシナリオにおいて、既存のベースラインを大幅に上回っている。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Reinforcement Learning via Conservative Agent for Environments with Random Delays [2.115993069505241]
本稿では,ランダム遅延下での意思決定のための単純かつ堅牢なエージェントを保守的エージェントと呼び,ランダム遅延環境を定遅延等価に再構成する。
これにより、アルゴリズム構造を変更したり性能を犠牲にすることなく、最先端の定数遅延法を直接ランダム遅延環境に拡張することができる。
論文 参考訳(メタデータ) (2025-07-25T06:41:06Z) - LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。
LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。
これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文 参考訳(メタデータ) (2025-07-16T09:46:58Z) - Adaptive Reinforcement Learning for Unobservable Random Delays [46.04329493317009]
本稿では,エージェントが観測不能かつ時間変化の遅れを適応的に処理できる汎用フレームワークを提案する。
具体的には、エージェントは予測不可能な遅延とネットワーク越しに送信される失われたアクションパケットの両方を処理するために、将来のアクションのマトリックスを生成する。
提案手法は,幅広いベンチマーク環境において,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-17T11:11:37Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Win Fast or Lose Slow: Balancing Speed and Accuracy in Latency-Sensitive Decisions of LLMs [48.653022530291494]
大規模言語モデル(LLM)は、様々な推論や生成タスクで顕著なパフォーマンスを示している。
この研究は、リアルタイム意思決定タスクにおいて、このレイテンシ品質のトレードオフに関する最初の体系的な研究を示す。
実時間要求に基づいてモデルサイズと量子化レベルを動的に選択する適応型フレームワークFPXを提案する。
論文 参考訳(メタデータ) (2025-05-26T04:03:48Z) - Investigating and Enhancing the Robustness of Large Multimodal Models Against Temporal Inconsistency [59.05753942719665]
本稿では,モデルのロバスト性を評価するために,時間的ロバスト性ベンチマーク(TemRobBench)を提案する。
16のLMMを評価した結果,従来の知識やテキストの文脈に頼りすぎていることが判明した。
我々はパノラマ直接選好最適化(PanoDPO)を設計し、LMMが視覚的特徴と言語的特徴の両方を同時に取り入れることを奨励する。
論文 参考訳(メタデータ) (2025-05-20T14:18:56Z) - Rainbow Delay Compensation: A Multi-Agent Reinforcement Learning Framework for Mitigating Delayed Observation [10.511062258286335]
実世界のマルチエージェントシステムでは、観測遅延はユビキタスであり、エージェントが環境の真の状態に基づいて決定を下すのを防ぐ。
遅延特性の異なるこれらの離散観測成分は、マルチエージェント強化学習において重要な課題である。
まず、分散化された個別遅延部分観測可能決定プロセス(DSID-POMDP)を標準のDec-POMDPを拡張して定式化する。
次に、個々の遅延に対処するためのRainbow Delay Compensation (RDC)フレームワークを提案し、構成モジュールの実装を推奨する。
論文 参考訳(メタデータ) (2025-05-06T14:47:56Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Delays in Reinforcement Learning [2.5835347022640254]
この論文は、エージェントの環境状態の観察やエージェントの行動の実行の遅延を研究することを目的としている。
幅広い遅延が考慮され、潜在的な解決策が提示される。
論文 参考訳(メタデータ) (2023-09-20T07:04:46Z) - Gated Recurrent Neural Networks with Weighted Time-Delay Feedback [55.596897987498174]
本稿では,重み付き時間遅延フィードバック機構を備えたゲートリカレントユニット(GRU)を導入し,時系列データの長期依存性をモデル化する手法を提案する。
提案したモデルである $tau$-GRU は、繰り返し単位の連続時間定式化の離散版であり、力学は遅延微分方程式(DDE)によって制御される。
論文 参考訳(メタデータ) (2022-12-01T02:26:34Z) - Revisiting State Augmentation methods for Reinforcement Learning with
Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。
遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。
この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文 参考訳(メタデータ) (2021-08-17T10:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。