Fugu-MT 論文翻訳(概要): How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles

論文の概要: How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles

arxiv url: http://arxiv.org/abs/2604.07650v1
Date: Wed, 08 Apr 2026 23:32:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.595072
Title: How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles
Title（参考訳）: 大規模言語モデルと独立性 : 行動の絡み合いと再重み付け検証の統計的枠組み
Authors: Chenchen Kuai, Jiwan Jiang, Zihao Zhu, Hao Wang, Keshu Wu, Zihao Li, Yunlong Zhang, Chenxi Liu, Zhengzhong Tu, Zhiwen Fan, Yang Zhou,
Abstract要約: 共有事前学習データ、蒸留、アライメントパイプラインは、隠れた振る舞い依存、潜伏絡みを誘導することができる。実際には、これは相関した推論パターンと同期された障害として現れます。ブラックボックス言語モデル間の行動絡みを監査するための統計的枠組みを開発する。
参考スコア（独自算出の注目度）: 46.63622714488747
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid growth of the large language model (LLM) ecosystem raises a critical question: are seemingly diverse models truly independent? Shared pretraining data, distillation, and alignment pipelines can induce hidden behavioral dependencies, latent entanglement, that undermine multi-model systems such as LLM-as-a-judge pipelines and ensemble verification, which implicitly assume independent signals. In practice, this manifests as correlated reasoning patterns and synchronized failures, where apparent agreement reflects shared error modes rather than independent validation. To address this, we develop a statistical framework for auditing behavioral entanglement among black-box LLMs. Our approach introduces a multi-resolution hierarchy that characterizes the joint failure manifold through two information-theoretic metrics: (i) a Difficulty-Weighted Behavioral Entanglement Index, which amplifies synchronized failures on easy tasks, and (ii) a Cumulative Information Gain (CIG) metric, which captures directional alignment in erroneous responses. Through extensive experiments on 18 LLMs from six model families, we identify widespread behavioral entanglement and analyze its impact on LLM-as-a-judge evaluation. We find that CIG exhibits a statistically significant association with degradation in judge precision, with Spearman coefficient of 0.64 (p < 0.001) for GPT-4o-mini and 0.71 (p < 0.01) for Llama3-based judges, indicating that stronger dependency corresponds to increased over-endorsement bias. Finally, we demonstrate a practical use case of entanglement through de-entangled verifier ensemble reweighting. By adjusting model contributions based on inferred independence, the proposed method mitigates correlated bias and improves verification performance, achieving up to a 4.5% accuracy gain over majority voting.
Abstract（参考訳）: 大きな言語モデル(LLM)エコシステムの急速な成長は、重要な疑問を提起する。共有事前学習データ、蒸留、アライメントパイプラインは、LLM-as-a-judgeパイプラインやアンサンブル検証といった、暗黙的に独立したシグナルを仮定するマルチモデルシステムを弱体化させる、隠れた振る舞い依存(潜伏絡み)を引き起こす。実際には、これは相関した推論パターンと同期された失敗であり、明確な合意は独立した検証ではなく共有エラーモードを反映している。そこで我々は,ブラックボックスLLM間の行動絡みを統計的に評価する枠組みを開発した。提案手法では,2つの情報理論的指標を用いて共同故障多様体を特徴付ける多分解能階層を導入する。一作業の同期障害を増幅する難易度重み付き行動絡み合い指数 (ii) 誤応答の方向アライメントを捉える累積情報ゲイン(CIG)メトリック。 6種類のモデル群から得られた18種のLLMに関する広範な実験を通じて,広範囲な行動絡みを同定し,そのLLM-as-a-judge評価への影響を解析した。その結果, GPT-4o-miniではスピアマン係数0.64 (p < 0.001) , Llama3 では0.71 (p < 0.01) と, 判定精度の低下と統計的に有意な相関が認められた。最後に, アンサンブル再重み付けによるアンタングル化の実用例を示す。推定独立度に基づくモデルコントリビューションの調整により, 相関バイアスを軽減し, 検証性能を向上し, 多数決よりも最大4.5%の精度向上を実現した。

関連論文リスト

Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文参考訳（メタデータ） (2026-03-13T20:44:15Z)
VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction [55.04308051033549]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)推論を向上するための主要なパラダイムとして登場した。モデル固有の信頼性を活用して外部検証から独立したカリキュラムを構築するフレームワークであるVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL)を紹介する。
論文参考訳（メタデータ） (2026-02-13T03:40:52Z)
STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。 STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文参考訳（メタデータ） (2026-02-12T16:30:07Z)
CARE: Confounder-Aware Aggregation for Reliable LLM Evaluation [21.96013518286442]
CAREは、判定スコアのための共同設立者対応アグリゲーションフレームワークである。共有共同設立者の下で、識別可能性と有限サンプル回復に関する理論的保証を提供する。 CAREはアグリゲーションの精度を改善し、エラーを最大26.8%削減する。
論文参考訳（メタデータ） (2026-02-09T03:17:55Z)
NAACL: Noise-AwAre Verbal Confidence Calibration for LLMs in RAG Systems [53.52419750390942]
大型言語モデル(LLM)はミッションクリティカルな事実領域で使用される。 LLMのキャリブレーション性能は, ノイズが回復した状況によって低下する。我々は、ノイズ下での過信を解決するための原則的基盤を提供するため、NAACLルール(Noise-AwAre Confidence CaLibration Rules)を提案する。
論文参考訳（メタデータ） (2026-01-16T05:38:25Z)
Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization [38.469173375694076]
マルチモーダル大言語モデル(MLLM)における幻覚の根本原因を系統的に解析する。 1)不正確な初期記述が後続の推論を誤った前提に固定する連鎖的視覚推論の過度な信頼、(2)政策最適化中の探索の多様性が不十分で、過度に自信があるが誤ったアウトプットを発生させる要因、(3)トレーニングサンプル間の破壊的な衝突、NTKの類似性が誤関連や不安定なパラメータ更新を引き起こす要因である。実験の結果,提案手法は幻覚率を著しく低減し,MLLMの推論精度を効果的に向上することが示された。
論文参考訳（メタデータ） (2026-01-09T07:59:18Z)
Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。 FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文参考訳（メタデータ） (2026-01-06T02:51:56Z)
Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文参考訳（メタデータ） (2025-05-29T20:45:18Z)
Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。 9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文参考訳（メタデータ） (2025-02-16T07:46:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。