論文の概要: TRUST: A Decentralized Framework for Auditing Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2510.20188v1
- Date: Thu, 23 Oct 2025 04:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.319849
- Title: TRUST: A Decentralized Framework for Auditing Large Language Model Reasoning
- Title(参考訳): TRUST: 大規模言語モデル推論を監査するための分散フレームワーク
- Authors: Morris Yu-Chao Huang, Zhen Tan, Mohan Zhang, Pingzhi Li, Zhuo Zhang, Tianlong Chen,
- Abstract要約: 大規模言語モデルは、意思決定を明らかにする推論チェーンを生成する。
既存の監査手法は集中的で、不透明で、スケールが難しい。
透明で分散化された監査フレームワークであるTRUSTを提案する。
- 参考スコア(独自算出の注目度): 45.228233498964755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models generate complex reasoning chains that reveal their decision-making, yet verifying the faithfulness and harmlessness of these intermediate steps remains a critical unsolved problem. Existing auditing methods are centralized, opaque, and hard to scale, creating significant risks for deploying proprietary models in high-stakes domains. We identify four core challenges: (1) Robustness: Centralized auditors are single points of failure, prone to bias or attacks. (2) Scalability: Reasoning traces are too long for manual verification. (3) Opacity: Closed auditing undermines public trust. (4) Privacy: Exposing full reasoning risks model theft or distillation. We propose TRUST, a transparent, decentralized auditing framework that overcomes these limitations via: (1) A consensus mechanism among diverse auditors, guaranteeing correctness under up to $30\%$ malicious participants. (2) A hierarchical DAG decomposition of reasoning traces, enabling scalable, parallel auditing. (3) A blockchain ledger that records all verification decisions for public accountability. (4) Privacy-preserving segmentation, sharing only partial reasoning steps to protect proprietary logic. We provide theoretical guarantees for the security and economic incentives of the TRUST framework. Experiments across multiple LLMs (GPT-OSS, DeepSeek-r1, Qwen) and reasoning tasks (math, medical, science, humanities) show TRUST effectively detects reasoning flaws and remains robust against adversarial auditors. Our work pioneers decentralized AI auditing, offering a practical path toward safe and trustworthy LLM deployment.
- Abstract(参考訳): 大規模言語モデルは、意思決定を明らかにする複雑な推論連鎖を生成するが、これらの中間ステップの忠実さと無害さを検証することは、重要な未解決問題である。
既存の監査手法は集中的で、不透明で、スケールが難しいため、プロプライエタリなモデルを高レベルなドメインにデプロイする上で、重大なリスクが生じる。
1)ロバスト性: 集中監査人は単一障害点であり、バイアスや攻撃を受けやすい。
(2) スケーラビリティ: トレースの推論は手作業による検証には長すぎる。
(3)Opacity: 閉鎖監査は公衆の信頼を損なう。
(4) プライバシー: 盗難又は蒸留をモデル化する完全な理由づけリスクを露呈する。
本研究では,これらの制約を克服する透過的な分散監査フレームワークであるTRUSTを提案する。
2) 拡張性のある並列監査を可能にする階層的DAGによる推論トレースの分解。
(3) 公開説明責任に関するすべての検証決定を記録するブロックチェーン台帳。
(4)プライバシ保護セグメンテーションは、プロプライエタリロジックを保護するための部分的推論ステップのみを共有する。
我々は、TRUSTフレームワークの安全性と経済的インセンティブに関する理論的保証を提供する。
複数のLCM(GPT-OSS、DeepSeek-r1、Qwen)および推論タスク(数学、医学、科学、人文科学)にわたる実験は、TRUSTが効果的に推論の欠陥を検出し、敵の監査者に対して堅牢であることを示している。
私たちの仕事のパイオニアは、AI監査を分散化し、安全で信頼性の高いLLMデプロイメントへの実践的なパスを提供しています。
関連論文リスト
- The Alignment Auditor: A Bayesian Framework for Verifying and Refining LLM Objectives [8.030821324147515]
逆強化学習は、行動から報酬関数を推測することができる。
既存のアプローチは、単一で自信過剰な報酬推定を生成するか、タスクの基本的な曖昧さに対処できないかのいずれかです。
本稿では,簡単な推定タスクから総合的な検証プロセスへ報酬推論を再構成する,原則的監査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-07T16:25:14Z) - FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention [53.25106308403173]
既存の手法は、安全推論の独特な重要性を軽視し、信頼性を損なうとともに、悪質なユーザに対して安全でない推論がアクセス可能で、悪質なユーザによって悪用された場合、アプリケーションに潜在的なリスクを生じさせることを示す。
我々は、安全トリガー付きコンプライアンスステップを代入し、強い信号による優先学習のためのペアを構築することで、安全推論を強制するアライメント手法であるIntervened Preference Optimization (IPO)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:41:09Z) - VeriLLM: A Lightweight Framework for Publicly Verifiable Decentralized Inference [4.158412539499328]
大規模言語モデル(LLM)のための分散推論のための公開検証プロトコルを提案する。
同一GPUワーカのセット上で両方のロールを多重化する同型推論検証ネットワークを導入する。
我々は形式的なゲーム理論解析を提供し、インセンティブの下では、正直な推論と検証がナッシュ均衡を構成することを証明した。
論文 参考訳(メタデータ) (2025-09-29T04:07:32Z) - Towards Evaluting Fake Reasoning Bias in Language Models [47.482898076525494]
論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Agora: Trust Less and Open More in Verification for Confidential Computing [19.05703756097075]
本稿では,この課題を克服するために設計された新しいバイナリ検証サービスであるAGORAを紹介する。
あるタスクは信頼できないエンティティに委譲でき、対応するバリデーターは信頼されたコンピューティングベースに確実に格納される。
ブロックチェーンベースの新たな報奨金タスクマネージャを通じて、クラウドソーシングを使用して、定理証明者の信頼を取り除く。
論文 参考訳(メタデータ) (2024-07-21T05:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。