論文の概要: From Topology to Trajectory: LLM-Driven World Models For Supply Chain Resilience
- arxiv url: http://arxiv.org/abs/2604.11041v1
- Date: Mon, 13 Apr 2026 06:14:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.359325
- Title: From Topology to Trajectory: LLM-Driven World Models For Supply Chain Resilience
- Title(参考訳): トポロジーから軌道へ:サプライチェーンレジリエンスのためのLCM駆動の世界モデル
- Authors: Jia Luo,
- Abstract要約: 本稿では,回復力のあるマクロ経済サプライチェーン計画に適した認知エージェントフレームワークであるReflectioniChainを紹介する。
輸出禁止や材料不足といった極端なシナリオの下で、ReflectioniChainは平均的なステップ報酬で250%改善されている。
- 参考スコア(独自算出の注目度): 2.160835522257474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semiconductor supply chains face unprecedented resilience challenges amidst global geopolitical turbulence. Conventional Large Language Model (LLM) planners, when confronting such non-stationary "Policy Black Swan" events, frequently suffer from Decision Paralysis or a severe Grounding Gap due to the absence of physical environmental modeling. This paper introduces ReflectiChain, a cognitive agentic framework tailored for resilient macroeconomic supply chain planning. The core innovation lies in the integration of Latent Trajectory Rehearsal powered by a generative world model, which couples reflection-in-action (System 2 deliberation) with delayed reflection-on-action. Furthermore, we leverage a Retrospective Agentic RL mechanism to enable autonomous policy evolution during the deployment phase (test-time). Evaluations conducted on our high-fidelity benchmark, Semi-Sim, demonstrate that under extreme scenarios such as export bans and material shortages, ReflectiChain achieves a 250% improvement in average step rewards over the strongest LLM baselines. It successfully restores the Operability Ratio (OR) from a deficient 13.3% to over 88.5% while ensuring robust gradient convergence. Ablation studies further underscore that the synergy between physical grounding constraints and double-loop learning is fundamental to bridging the gap between semantic reasoning and physical reality for long-horizon strategic planning.
- Abstract(参考訳): 半導体サプライチェーンは、地球規模の地政学的乱流の中で、前例のないレジリエンスの課題に直面している。
従来の大規模言語モデル(LLM)プランナーは、非定常的な「ポリシーブラックスワン(Policy Black Swan)」イベントに直面すると、物理的環境モデリングが欠如しているため、しばしば決定的麻痺や深刻な接地ギャップに悩まされる。
本稿では,回復力のあるマクロ経済サプライチェーン計画に適した認知エージェントフレームワークであるReflectioniChainを紹介する。
中心となるイノベーションは、リフレクション・イン・アクション(システム2の熟考)とリフレクション・オン・アクション(リフレクション・オン・アクション)を結合する生成的世界モデルによって駆動されるレイト・トラジェクトリ・リハーサルの統合である。
さらに、Retrospective Agentic RLメカニズムを利用して、デプロイフェーズ(テスト時間)中に自律的なポリシーの進化を可能にする。
高忠実度ベンチマークであるSemi-Simで行った評価は、輸出禁止や材料不足といった極端なシナリオの下では、リフレクションチェインは最強のLCMベースラインよりも平均ステップ報酬が250%改善していることを示している。
オペラビリティ比(OR)は13.3%から88.5%以上まで回復し、安定した勾配収束を保証する。
アブレーション研究は、物理的接地制約と二重ループ学習の相乗効果が、長期戦略計画における意味論的推論と物理的現実の間のギャップを埋めるのに基礎的であることをさらに強調している。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - RISE: Self-Improving Robot Policy with Compositional World Model [52.227523057681786]
我々は、想像力によるロボット強化学習のスケーラブルなフレームワークRISEを紹介する。
中心となるのは構成的世界モデルであり、制御可能なダイナミクスモデルを通じて多視点の未来を予測し、(ii)進捗値モデルを用いて想像結果を評価する。
これらのコンポーネントはクローズドループの自己改善パイプラインに統合され、虚構のロールアウトを継続的に生成し、利点を推定し、コストのかかる物理的相互作用なしに虚構空間のポリシーを更新する。
論文 参考訳(メタデータ) (2026-02-11T17:43:36Z) - Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - PACEvolve: Enabling Long-Horizon Progress-Aware Consistent Evolution [64.15555230987222]
PACEvolveはエージェントのコンテキストと検索ダイナミクスを堅牢に管理するように設計されたフレームワークである。
PACEvolveは、一貫性のある長期自己改善のための体系的なパスを提供する。
論文 参考訳(メタデータ) (2026-01-15T18:25:23Z) - Reflecting with Two Voices: A Co-Adaptive Dual-Strategy Framework for LLM-Based Agent Decision Making [24.534365665776672]
大規模言語モデル(LLM)エージェントは、しばしば外部のデモンストレーションや検索拡張計画に依存している。
本研究では,DuSARを提案する。DuSARは1つの凍結LDMが共適応推論を行うことを可能にするデモフリーフレームワークである。
ALFWorldとMind2Webでは、DuSARはオープンソースのLLMで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-09T08:44:59Z) - AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models [75.214287449744]
我々は,Impartial World Modelを中心に構築されたポストトレーニング政策改善のためのフレームワークを紹介する。
私たちの主な貢献は、このモデルに危険について正直であることを教えることです。
大規模な実験を通じて、我々のモデルは失敗を予測する上で、ベースラインを著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2025-11-25T13:57:24Z) - R-WoM: Retrieval-augmented World Model For Computer-use Agents [15.812606459788471]
大規模言語モデル(LLM)は、デジタル環境におけるエージェントの意思決定を強化する世界モデルとして機能する。
未来予測と報奨推定という,世界モデルの2つのコア機能について,三つの課題を通して検討する。
本稿では,外部チュートリアルから得られた現実的,最新の知識を取り入れたRetrieval-augmented World Model (R-WoM)を提案する。
論文 参考訳(メタデータ) (2025-10-13T19:52:04Z) - Momentum-constrained Hybrid Heuristic Trajectory Optimization Framework with Residual-enhanced DRL for Visually Impaired Scenarios [4.735413508037063]
本稿では,視覚障害者の補助ナビゲーションに適した運動量制約付きハイブリッド軌道最適化フレームワーク(MHHTOF)を提案する。
残留深部強化学習(DRL)による軌道サンプリング生成、最適化、評価の統合
実験の結果,提案したLSTM-BResPPOは,PPOが要求する約半数のトレーニングにおいて,安定な政策性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2025-09-19T04:33:39Z) - Expert Insight-Based Modeling of Non-Kinetic Strategic Deterrence of Rare Earth Supply Disruption:A Simulation-Driven Systematic Framework [3.5516803380598074]
本研究では,レアアース供給破壊シナリオにおける非運動論的戦略抑止経路をシミュレートするための定量的モデリングフレームワークを構築した。
データは、ISR、電子戦、レアアースコントロールにおける米国と中国のダイナミクスを中心とした専門家のインタビューとシナリオ分析に由来する。
その結果, 組織的な信号は強いテンポと経路結合効果を有し, 戦略的能力の急速な劣化を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2025-06-13T10:18:59Z) - Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.693200946453174]
AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。
本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。
我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文 参考訳(メタデータ) (2025-05-26T11:50:22Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。