論文の概要: PreFlect: From Retrospective to Prospective Reflection in Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2602.07187v1
- Date: Fri, 06 Feb 2026 20:42:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.490719
- Title: PreFlect: From Retrospective to Prospective Reflection in Large Language Model Agents
- Title(参考訳): PreFlect: 大規模言語モデルエージェントの振り返りから振り返りへ
- Authors: Hanyu Wang, Yuanpu Cao, Lu Lin, Jinghui Chen,
- Abstract要約: 先進的な反射機構であるPreFlectを導入し,そのパラダイムをポストホック修正からプレ実行前へシフトさせる。
歴史的エージェントの軌跡から計画誤差を抽出し,過去の実行中に繰り返し観測された成功と失敗パターンを捉える。
- 参考スコア(独自算出の注目度): 30.225072803272273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced large language model agents typically adopt self-reflection for improving performance, where agents iteratively analyze past actions to correct errors. However, existing reflective approaches are inherently retrospective: agents act, observe failure, and only then attempt to recover. In this work, we introduce PreFlect, a prospective reflection mechanism that shifts the paradigm from post hoc correction to pre-execution foresight by criticizing and refining agent plans before execution. To support grounded prospective reflection, we distill planning errors from historical agent trajectories, capturing recurring success and failure patterns observed across past executions. Furthermore, we complement prospective reflection with a dynamic re-planning mechanism that provides execution-time plan update in case the original plan encounters unexpected deviation. Evaluations on different benchmarks demonstrate that PreFlect significantly improves overall agent utility on complex real-world tasks, outperforming strong reflection-based baselines and several more complex agent architectures. Code will be updated at https://github.com/wwwhy725/PreFlect.
- Abstract(参考訳): 高度な大規模言語モデルエージェントは通常、パフォーマンスを改善するために自己回帰を採用し、エージェントは過去のアクションを反復的に分析してエラーを修正する。
しかし、既存の反射的アプローチは本質的にふりかえりであり、エージェントは行動し、失敗を観察し、それからのみ回復しようとする。
本研究は,プリフレクト(PreFlect)について紹介する。このメカニズムは,実行前のエージェントプランを批判し,精査することによって,パラダイムをポストホック修正からプレ実行前管理へ移行させる。
提案手法は, 歴史的エージェント軌道からの予測誤差を抽出し, 過去の実行中に繰り返し観測された成功パターンと失敗パターンを抽出する。
さらに、予測反射を動的再計画機構で補完し、当初の計画が予期せぬずれに遭遇した場合に実行時計画更新を提供する。
異なるベンチマークによる評価では、PreFlectは複雑な現実世界のタスクにおけるエージェントユーティリティを著しく改善し、強力なリフレクションベースのベースラインや、より複雑なエージェントアーキテクチャよりも優れています。
コードはhttps://github.com/wwwhy725/PreFlect.comで更新される。
関連論文リスト
- Position: Beyond Model-Centric Prediction -- Agentic Time Series Forecasting [49.05788441962762]
エージェント時系列予測(ATSF)は,認識,計画,行動,反射,記憶からなるエージェントプロセスとして再編成される。
ワークフローに基づく設計、エージェント強化学習、ハイブリッドエージェントワークフローパラダイムという3つの代表的な実装パラダイムを概説し、モデル中心の予測からエージェント予測に移行する際に生じる機会と課題について議論する。
論文 参考訳(メタデータ) (2026-02-02T08:01:11Z) - PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [52.67948063133533]
生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。
本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
論文 参考訳(メタデータ) (2026-01-08T07:38:46Z) - Current Agents Fail to Leverage World Model as Tool for Foresight [61.82522354207919]
エージェントは、行動する前に結果を予測するためにそれらを使用できます。
本稿では,現在のエージェントがそのような世界モデルを,認知力を高めるツールとして活用できるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (2026-01-07T13:15:23Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - MIRROR: Multi-agent Intra- and Inter-Reflection for Optimized Reasoning in Tool Learning [33.009759731505746]
ツール統合を含む複雑なタスクは、大規模言語モデルにとって大きな課題となる。
リフレクションはエージェントベンチマークにおける誤った軌道の修正に有効な戦略として現れている。
提案するMIRRORは,実行前に意図した動作を批判的に評価するフレームワークと,軌道のさらなる調整を行うインターリフレクションの両方からなるフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T03:37:33Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - Rejecting Hallucinated State Targets during Planning [84.179112256683]
計画過程において、生成的または予測的モデルは、期待される状態や望ましい状態の集合を表す「ターゲット」を提案するためにしばしば用いられる。
残念ながら、学習したモデルは必然的に幻覚を与え、妄想的な行動や安全上の懸念を引き起こす可能性がある。
我々は、目標実現可能性評価器を学習することで、実現不可能な目標を特定し、拒否する戦略を考案する。
論文 参考訳(メタデータ) (2024-10-09T17:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。