論文の概要: Beyond Prompt Engineering: Neuro-Symbolic-Causal Architecture for Robust Multi-Objective AI Agents
- arxiv url: http://arxiv.org/abs/2510.23682v1
- Date: Mon, 27 Oct 2025 15:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.34351
- Title: Beyond Prompt Engineering: Neuro-Symbolic-Causal Architecture for Robust Multi-Objective AI Agents
- Title(参考訳): プロンプトエンジニアリングを超えて:ロバストな多目的AIエージェントのためのニューロ・シンボリック・カジュアルアーキテクチャ
- Authors: Gokturk Aytug Akarlar,
- Abstract要約: 大規模な言語モデルは、自律的な意思決定エージェントとして有望であるが、高い領域への展開はリスクを伴い続けている。
本稿では,LLMストラテジスト,公式なシンボル制約エンジン,因果推論モジュールを統合した,ニューロシンボリック・因果的アーキテクチャであるChimeraを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models show promise as autonomous decision-making agents, yet their deployment in high-stakes domains remains fraught with risk. Without architectural safeguards, LLM agents exhibit catastrophic brittleness: identical capabilities produce wildly different outcomes depending solely on prompt framing. We present Chimera, a neuro-symbolic-causal architecture that integrates three complementary components - an LLM strategist, a formally verified symbolic constraint engine, and a causal inference module for counterfactual reasoning. We benchmark Chimera against baseline architectures (LLM-only, LLM with symbolic constraints) across 52-week simulations in a realistic e-commerce environment featuring price elasticity, trust dynamics, and seasonal demand. Under organizational biases toward either volume or margin optimization, LLM-only agents fail catastrophically (total loss of \$99K in volume scenarios) or destroy brand trust (-48.6% in margin scenarios). Adding symbolic constraints prevents disasters but achieves only 43-87% of Chimera's profit. Chimera consistently delivers the highest returns (\$1.52M and \$1.96M respectively, some cases +\$2.2M) while improving brand trust (+1.8% and +10.8%, some cases +20.86%), demonstrating prompt-agnostic robustness. Our TLA+ formal verification proves zero constraint violations across all scenarios. These results establish that architectural design not prompt engineering determines the reliability of autonomous agents in production environments. We provide open-source implementations and interactive demonstrations for reproducibility.
- Abstract(参考訳): 大規模な言語モデルは、自律的な意思決定エージェントとして有望であるが、高い領域への展開はリスクを伴い続けている。
アーキテクチャ上の保護がなければ、LLMエージェントは破滅的な脆さを示す。
本稿では,LLMストラテジスト,公式なシンボル制約エンジン,因果推論モジュールの3つの相補的コンポーネントを統合した,ニューロシンボリック・因果的アーキテクチャであるChimeraを紹介する。
我々は,価格弾力性,信頼度,季節的需要を考慮した現実的なeコマース環境において,52週間のシミュレーションにおいて,ベースラインアーキテクチャ(LLMのみ,シンボル制約付きLLM)に対してChimeraをベンチマークした。
ボリューム最適化とマージン最適化の両方に対する組織的偏見の下で、LCMのみのエージェントは破滅的に失敗(ボリュームシナリオでは99Kの損失)するか、またはブランド信頼を破壊(マージンシナリオでは-48.6%)する。
象徴的な制約を加えることで災害を防げるが、チメラの利益の43-87%しか得られない。
チメラは最高リターン(それぞれ1.52Mと1.96M、場合によっては2.2M)を常に提供し、ブランド信頼(+1.8%と+10.8%、場合によっては20.86%)を改善し、即時無作為な堅牢性を示している。
我々の TLA+ の形式的検証は、すべてのシナリオにおける制約違反がゼロであることを証明している。
これらの結果は,建築設計が生産環境における自律エージェントの信頼性を決定づけるものではないことを証明している。
再現性のためのオープンソース実装とインタラクティブなデモを提供する。
関連論文リスト
- FLAMES: Fine-tuning LLMs to Synthesize Invariants for Smart Contract Security [41.836337574143535]
FLAMESは、ランタイムガードをSolidityの"require"ステートメントとして合成して、エクスプロイトに対するスマートコントラクトを強化する自動アプローチである。
FLAMESは、514,506の検証された契約から抽出された実世界の不変量について、中間層を教師する微調整によって訓練されたドメイン適応型大規模言語モデルを採用している。
論文 参考訳(メタデータ) (2025-10-24T12:44:08Z) - ParaVul: A Parallel Large Language Model and Retrieval-Augmented Framework for Smart Contract Vulnerability Detection [43.41293570032631]
ParaVulは、スマートコントラクト脆弱性検出の信頼性と精度を向上させるための、検索強化フレームワークである。
LLM微調整のためのスパースローランド適応(SLoRA)を開発した。
脆弱性契約データセットを構築し,RAG(Retrieval-Augmented Generation)システムを開発した。
論文 参考訳(メタデータ) (2025-10-20T03:23:41Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - Trade in Minutes! Rationality-Driven Agentic System for Quantitative Financial Trading [57.28635022507172]
TiMiは、アーキテクチャ上、戦略開発を分単位のデプロイメントから切り離す合理性駆動型マルチエージェントシステムである。
本稿では,マクロパターンからマイクロカスタマイズ,トレーディングボット実装のための階層型プログラミング設計,数学的リフレクションによって駆動されるクローズドループ最適化までの2層解析パラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-06T13:08:55Z) - Towards Secure and Explainable Smart Contract Generation with Security-Aware Group Relative Policy Optimization [18.013438474903314]
本稿では,スマートコントラクト生成をセキュアかつ説明可能なフレームワークであるSmartCoder-R1を提案する。
我々は、人間のセキュリティ分析をエミュレートするためにモデルを訓練する。
SmartCoder-R1は、テクニックの新たな状態を確立し、5つの主要なメトリクスで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-12T03:14:50Z) - Chimera: Harnessing Multi-Agent LLMs for Automatic Insider Threat Simulation [17.496651394447596]
我々は,最初の大規模言語モデル(LLM)に基づくマルチエージェントフレームワークであるChimeraを提案する。
Chimeraは、各従業員に役割固有の振る舞いを持つエージェントをモデル化し、グループミーティング、ペアインタラクション、自律スケジューリングのためのモジュールを統合する。
15種類のインサイダー攻撃(IP盗難、システム妨害など)を組み込んでおり、3つの機密ドメインのアクティビティをシミュレートするためにデプロイされている。
我々は人間の研究と定量的分析を通じてChimeraLogを評価し、その多様性、リアリズム、説明可能な脅威パターンの存在を確認した。
論文 参考訳(メタデータ) (2025-08-11T08:24:48Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - EmoDebt: Bayesian-Optimized Emotional Intelligence for Strategic Agent-to-Agent Debt Recovery [65.30120701878582]
大規模言語モデル(LLM)エージェントは、負債収集のような感情に敏感なドメインの悪用に対して脆弱である。
EmoDebtは、ネゴシエーションにおける感情を表現するモデルの能力を、シーケンシャルな意思決定問題として再設計する感情インテリジェンスエンジンである。
提案したベンチマーク実験により,EmoDebtは戦略的堅牢性を実現し,非適応的,感情に依存しないベースラインを著しく上回った。
論文 参考訳(メタデータ) (2025-03-27T01:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。