論文の概要: When Stress Becomes Signal: Detecting Antifragility-Compatible Regimes in Multi-Agent LLM Systems
- arxiv url: http://arxiv.org/abs/2605.02463v1
- Date: Mon, 04 May 2026 11:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.254409
- Title: When Stress Becomes Signal: Detecting Antifragility-Compatible Regimes in Multi-Agent LLM Systems
- Title(参考訳): ストレスが信号になるとき:マルチエージェントLDMシステムにおける反フレキシブルレジームの検出
- Authors: Jose Manuel de la Chica, Juan Manuel Vera, Jairo Rodríguez,
- Abstract要約: マルチエージェントアーキテクチャにおける反脆弱性に適合する状態を検出するための統計フレームワークであるCAFEを紹介する。
正のギャップは即時性能改善を示唆せず、代わりに観測された応力分布の凸膨張変形を示す。
我々は,5つのマルチエージェントアーキテクチャ(フラット,階層,議論,メタ適応,アンサンブル)を用いた銀行リスク分析ベンチマークでCAFEを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent LLM systems are increasingly used to solve complex tasks through decomposition, debate, specialization, and ensemble reasoning. However, these systems are usually evaluated in terms of robustness: whether performance is preserved under perturbation. This paper studies a different question: whether semantic stress exposes structured variation that could support future antifragile learning. We introduce CAFE, a statistical framework for detecting antifragility-compatible regimes in multi-agent architectures. CAFE models a controlled expected distribution of semantic stressors, reconstructs an architecture-specific observed effective stress distribution from multi-dimensional judge signals, and compares both distributions using a distributional Jensen Gap under a convex stress potential. A positive gap does not imply immediate performance improvement; instead, it indicates a convex-expansive deformation of the observed stress distribution, suggesting that the architecture exposes learnable stress structure. We evaluate CAFE on a banking-risk analysis benchmark with five multi-agent architectures: flat, hierarchical, debate, meta-adaptive, and ensemble. Across all architectures, semantic stress reduces average judged quality by roughly one third. Yet all architectures exhibit positive distributional Jensen Gaps with bootstrap confidence intervals above zero. These results show that immediate quality degradation can coexist with statistically detectable antifragility-compatible stress geometry. CAFE is therefore not an antifragile learner itself, but a measurement layer for identifying when and where antifragility learning may be worth applying.
- Abstract(参考訳): マルチエージェントLLMシステムは、分解、議論、特殊化、アンサンブル推論を通じて複雑なタスクを解くのにますます使われている。
しかしながら、これらのシステムは通常、摂動下で性能が保持されるかどうかという、堅牢性の観点から評価される。
本稿では, セマンティックストレスが将来の反フレジブル学習を支援する構造的変動を露呈するかどうかという, 異なる疑問を考察する。
マルチエージェントアーキテクチャにおける反脆弱性に適合する状態を検出するための統計フレームワークであるCAFEを紹介する。
CAFEは、セマンティックストレスの制御された分布をモデル化し、多次元の判断信号からアーキテクチャ特異的に観測された効果的なストレス分布を再構成し、凸応力ポテンシャルの下で分布のJensen Gapを用いて両分布を比較する。
その代わりに、観測された応力分布の凸膨張変形を示し、アーキテクチャが学習可能な応力構造を公開することを示唆している。
我々は,5つのマルチエージェントアーキテクチャ(フラット,階層,議論,メタ適応,アンサンブル)を用いた銀行リスク分析ベンチマークでCAFEを評価した。
すべてのアーキテクチャにおいて、セマンティックストレスは、平均的な判断された品質を約3分の1削減します。
しかし、全てのアーキテクチャは、0以上のブートストラップ信頼区間を持つ正の分布的ジェンセンギャップを示す。
これらの結果から, 即時品質劣化は, 統計的に検出可能な抗脆弱性に適合する応力幾何学と共存する可能性が示唆された。
したがって、CAFEは反脆弱学習者自身ではなく、いつ、どこで反脆弱学習が適用に値するかを特定するための測定層である。
関連論文リスト
- Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - Adversarial Moral Stress Testing of Large Language Models [6.225703352031606]
本稿では, 対人多ラウンド相互作用下での倫理的堅牢性を評価するためのストレスベース評価フレームワーク, AMSTを紹介する。
我々は,LLaMA-3-8B,GPT-4o,DeepSeek-v3を含む最先端LLMにおけるAMSTの評価を行った。
論文 参考訳(メタデータ) (2026-04-01T16:34:20Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。
この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文 参考訳(メタデータ) (2026-02-19T06:56:01Z) - Multi-Agent Debate: A Unified Agentic Framework for Tabular Anomaly Detection [7.807411603618987]
マルチエージェント議論フレームワーク(MAD)は、不一致を第一級信号として扱う。
MADは、大言語モデル(LLM)ベースの批評家によって強化された正規化された異常スコア、信頼性、構造化された証拠を生成する。
コンフォメーションキャリブレーションが議論されたスコアをラップして、交換可能性の下で偽陽性を制御する方法を示す。
論文 参考訳(メタデータ) (2026-02-15T17:44:32Z) - Test-time Verification via Optimal Transport: Coverage, ROC, & Sub-optimality [53.03186946689658]
検証によるテストタイムのスケーリングは、大規模言語モデルのパフォーマンス向上を約束している。
検証の効果は、(i)ジェネレータのカバレッジ、(ii)検証器の収束領域(ROC)、(iii)サンプリングアルゴリズムの準最適性の3つの相互作用を通して現れる。
本稿では,輸送問題として検証可能なテストタイムスケーリングの枠組みを定め,カバレッジ,ROC,サブ最適性の相互作用を特徴付ける。
論文 参考訳(メタデータ) (2025-10-21T18:05:42Z) - Evaluating the Efficiency of Latent Spaces via the Coupling-Matrix [0.5013248430919224]
本稿では,次元間の依存関係を直接定量化する冗長指数rho(C)を導入する。
低rho(C)は高い分類精度または低い再構成誤差を確実に予測する一方、高い冗長性は性能崩壊と関連付けられる。
木構造型Parzen Estimator (TPE) は低ロー領域を優先的に探索し,rho(C) がニューラルアーキテクチャ探索を誘導し,冗長性を考慮した正規化ターゲットとして機能することを示唆する。
論文 参考訳(メタデータ) (2025-09-08T03:36:47Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Causality is all you need [63.10680366545293]
因果グラフルーティング(Causal Graph Routing, CGR)は、データに隠された原因影響力を明らかにするための介入機構を完全に依存した統合因果スキームである。
CGRは、Visual Question AnswerとLong Document Classificationタスクの両方において、最先端のメソッドを超越することができる。
論文 参考訳(メタデータ) (2023-11-21T02:53:40Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。