Fugu-MT 論文翻訳(概要): Adaptive Trust Metrics for Multi-LLM Systems: Enhancing Reliability in Regulated Industries

論文の概要: Adaptive Trust Metrics for Multi-LLM Systems: Enhancing Reliability in Regulated Industries

arxiv url: http://arxiv.org/abs/2601.08858v1
Date: Wed, 07 Jan 2026 01:50:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-15 18:59:20.09478
Title: Adaptive Trust Metrics for Multi-LLM Systems: Enhancing Reliability in Regulated Industries
Title（参考訳）: マルチLLMシステムのアダプティブ信頼度:規制産業における信頼性向上
Authors: Tejaswini Bollikonda,
Abstract要約: 大規模言語モデル(LLM)は、医療、金融、法律といった機密性の高い分野にますます導入されている。本稿では,マルチ LLM エコシステムに対する適応的信頼度について検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly deployed in sensitive domains such as healthcare, finance, and law, yet their integration raises pressing concerns around trust, accountability, and reliability. This paper explores adaptive trust metrics for multi LLM ecosystems, proposing a framework for quantifying and improving model reliability under regulated constraints. By analyzing system behaviors, evaluating uncertainty across multiple LLMs, and implementing dynamic monitoring pipelines, the study demonstrates practical pathways for operational trustworthiness. Case studies from financial compliance and healthcare diagnostics illustrate the applicability of adaptive trust metrics in real world settings. The findings position adaptive trust measurement as a foundational enabler for safe and scalable AI adoption in regulated industries.
Abstract（参考訳）: 大規模言語モデル(LLM)は、医療、金融、法律といった機密性の高い分野にますますデプロイされているが、その統合は信頼、説明責任、信頼性に関する懸念を喚起している。本稿では,規制制約下でのモデル信頼性の定量化と改善のためのフレームワークを提案する。システム動作の解析,複数のLCM間の不確実性の評価,動的監視パイプラインの実装などにより,運用上の信頼性を実証する。金融コンプライアンスと医療診断のケーススタディは、現実の環境でのアダプティブ・トラスト・メトリクスの適用可能性を示している。その結果,適応信頼度測定は,規制産業における安全かつスケーラブルなAI導入の基盤として位置づけられた。

関連論文リスト

Diagnosing the Reliability of LLM-as-a-Judge via Item Response Theory [6.880198682732575]
項目応答理論(IRT)に基づくLCM-as-a-Judgeの信頼性評価のための2段階診断フレームワークを提案する。本フレームワークはIRTのグレード・レスポンシブ・モデル(GRM)を採用し,(1)素早い変動下での計測行動の安定性として定義された本質的な一貫性,(2)人間のアライメント,人間の品質評価との対応,という2つの相補的な次元に沿って信頼性を定式化する。
論文参考訳（メタデータ） (2026-01-31T05:24:08Z)
Calibration Is Not Enough: Evaluating Confidence Estimation Under Language Variations [49.84786015324238]
信頼度推定(CE)は、大きな言語モデル(LLM)の回答がどれほど信頼性が高いかを示し、ユーザの信頼と意思決定に影響を与える可能性がある。本稿では,CEの信頼性を3つの新しい側面で評価する総合評価フレームワークを提案する。これには、急激な摂動に対する自信の堅牢性、意味論的に等価な答えに対する安定性、意味論的に異なる答えに対する感受性が含まれる。
論文参考訳（メタデータ） (2026-01-12T23:16:50Z)
Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。 FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文参考訳（メタデータ） (2026-01-06T02:51:56Z)
Overconfidence in LLM-as-a-Judge: Diagnosis and Confidence-Driven Solution [20.607071807794195]
大規模言語モデル(LLM)は自動化された判断として広く使われており、実際的な価値は正確さと信頼性の高いリスク認識の判断の両方に依存する。既存のアプローチは主に正確さに焦点を合わせ、よく校正された信頼の必要性を見越す。我々は、精度中心の評価から信頼性駆動型、リスク対応型LCM-as-a-Judgeシステムへの移行を提唱する。
論文参考訳（メタデータ） (2025-08-08T11:11:22Z)
Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。 LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文参考訳（メタデータ） (2025-07-30T08:44:22Z)
A Weighted Byzantine Fault Tolerance Consensus Driven Trusted Multiple Large Language Models Network [53.37983409425452]
大規模言語モデル(LLM)は幅広いアプリケーションで大きな成功を収めています。近年,MultiLLMネットワーク(MultiLLMN)などの協調フレームワークが導入されている。重み付きビザンチンフォールトトレランス(WBFT)ブロックチェーンコンセンサス機構によって駆動される新しいTrusted MultiLLMNフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-08T10:04:41Z)
FedMM-X: A Trustworthy and Interpretable Framework for Federated Multi-Modal Learning in Dynamic Environments [0.0]
本稿では,分散化された動的環境における信頼性を確保するために,多モーダル推論によるフェデレーション学習を統一するフレームワークを提案する。このアプローチはFedMM-Xと呼ばれ、クロスモーダル整合性チェック、クライアントレベルの解釈可能性メカニズム、動的信頼校正を利用する。我々の発見は、現実の環境で堅牢で解釈可能で社会的に責任を負うAIシステムを開発するための道を開いた。
論文参考訳（メタデータ） (2025-03-25T11:28:21Z)
SteerConf: Steering LLMs for Confidence Elicitation [11.872504642312705]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示すが、しばしば過剰な自信に悩まされる。本稿では,LCMの信頼性スコアを体系的に評価し,キャリブレーションと信頼性を向上させる新しいフレームワークであるSteerConfを提案する。
論文参考訳（メタデータ） (2025-03-04T18:40:49Z)
Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models [91.24296813969003]
本稿では,機械学習に因果的手法を取り入れて,信頼性の高いMLの主要な原則間のトレードオフをナビゲートすることを提唱する。我々は、信頼できるMLと基礎モデルの両方において、複数の競合する目標のバランスをとるためには、因果的アプローチが不可欠であると主張する。
論文参考訳（メタデータ） (2025-02-28T14:57:33Z)
A Comprehensive Survey on the Trustworthiness of Large Language Models in Healthcare [8.378348088931578]
医療における大規模言語モデル(LLM)の適用は、臨床意思決定、医学研究、患者医療の強化に大きく貢献する。実際の臨床環境への統合は、信頼性、特に真理性、プライバシー、安全性、堅牢性、公正性、説明可能性に関する重要な懸念を提起する。
論文参考訳（メタデータ） (2025-02-21T18:43:06Z)
On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [377.2483044466149]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文参考訳（メタデータ） (2025-02-20T06:20:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。