論文の概要: Recursive Knowledge Synthesis for Multi-LLM Systems: Stability Analysis and Tri-Agent Audit Framework
- arxiv url: http://arxiv.org/abs/2601.08839v1
- Date: Wed, 17 Dec 2025 16:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.660682
- Title: Recursive Knowledge Synthesis for Multi-LLM Systems: Stability Analysis and Tri-Agent Audit Framework
- Title(参考訳): マルチLLMシステムの再帰的知識合成:安定性解析と三段階監査フレームワーク
- Authors: Toshiyuki Shigemura,
- Abstract要約: 本稿では,大規模言語システムにおける安定性と説明可能性を分析するための三段階クロスバリデーションフレームワークを提案する。
このアーキテクチャは、セマンティックジェネレーション、分析整合性チェック、透明性監査に使用される3つの異種LCMを統合している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a tri-agent cross-validation framework for analyzing stability and explainability in multi-model large language systems. The architecture integrates three heterogeneous LLMs-used for semantic generation, analytical consistency checking, and transparency auditing-into a recursive interaction cycle. This design induces Recursive Knowledge Synthesis (RKS), where intermediate representations are continuously refined through mutually constraining transformations irreducible to single-model behavior. Across 47 controlled trials using public-access LLM deployments (October 2025), we evaluated system stability via four metrics: Reflex Reliability Score (RRS), Transparency Score (TS), Deviation Detection Rate (DDR), and Correction Success Rate (CSR). The system achieved mean RRS = 0.78+-0.06 and maintained TS >= 0.8 in about 68% of trials. Approximately 89% of trials converged, supporting the theoretical prediction that transparency auditing acts as a contraction operator within the composite validation mapping. The contributions are threefold: (1) a structured tri-agent framework for coordinated reasoning across heterogeneous LLMs, (2) a formal RKS model grounded in fixed-point theory, and (3) empirical evaluation of inter-model stability under realistic, non-API public-access conditions. These results provide initial empirical evidence that a safety-preserving, humansupervised multi-LLM architecture can achieve stable recursive knowledge synthesis in realistic, publicly deployed environments.
- Abstract(参考訳): 本稿では,多モデル大規模言語システムにおける安定性と説明可能性を分析するための三段階クロスバリデーションフレームワークを提案する。
このアーキテクチャは、セマンティック生成、解析的整合性チェック、透明性監査の3つのヘテロジニアスLSMを再帰的相互作用サイクルに統合する。
この設計は再帰的知識合成(RKS)を誘導し、中間表現は単一モデルの振る舞いとは無関係な相互拘束変換によって連続的に洗練される。
2025年10月、パブリックアクセス LLM デプロイメントを用いた47 回にわたって、反射信頼性スコア(RRS)、透過性スコア(TS)、偏差検出レート(DDR)、補正成功率(CSR)の4つの指標を用いて、システムの安定性を評価した。
このシステムはRS = 0.78+-0.06 であり、約68%の試験でTS >= 0.8 を維持した。
実験の約89%は、透明性監査が複合バリデーションマッピング内の収縮演算子として働くという理論予測を支持した。
コントリビューションは,(1) 異種LLM間の協調推論のための構造化三元フレームワーク,(2) 固定点理論に基づく形式的RKSモデル,(3) 現実的,非API公開アクセス条件下でのモデル間安定性の実証評価である。
これらの結果は、安全に配慮したマルチLLMアーキテクチャが、現実的かつ公的な環境において安定した再帰的な知識合成を実現することができるという実証的な証拠を提供する。
関連論文リスト
- Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - BHaRNet: Reliability-Aware Body-Hand Modality Expertized Networks for Fine-grained Skeleton Action Recognition [12.973657570368317]
この研究は、信頼性モデリングとマルチモーダル統合を統一し、スケルトン内ドメインとクロスモーダルドメインの両方にわたる不確実性の下で専門的な学習を一般化する確率的デュアルストリームフレームワークを提案する。
本フレームワークは,(1)標準空間変換を除去し,ネイティブ座標から直接学習するキャリブレーションフリー前処理パイプライン,(2)信頼を必要とせず,信頼性に配慮した2重ストリーム学習を安定化する確率的ノイズOR融合,(3)4つの骨格モーダル(関節,骨,関節運動,骨運動)をRGB表現に結合し,構造的および視覚的運動をブリッジングする内部から横断的なアンサンブルからなる。
論文 参考訳(メタデータ) (2026-01-01T15:13:11Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Enhancing ALS Progression Tracking with Semi-Supervised ALSFRS-R Scores Estimated from Ambient Home Health Monitoring [3.210027230758067]
自己注意は、サブスケールレベルのモデルで最小の予測誤差を達成した。
機能領域にまたがる特異な均一性-均一性プロファイルを同定した。
論文 参考訳(メタデータ) (2025-07-13T02:56:40Z) - Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions [8.069858557211132]
大きな言語モデル(LLM)は、様々なタスクにまたがって顕著な機能を示している。
ハイテイクなドメインへのデプロイメントには、複数ラウンドにわたるユーザインタラクションの一貫性と一貫性を備えた動作が必要です。
本稿では,LLM応答整合性の評価と改善のための総合的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-28T11:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。