論文の概要: Audit Trails for Accountability in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.20727v1
- Date: Wed, 28 Jan 2026 16:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.008627
- Title: Audit Trails for Accountability in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるアカウンタビリティのための監査道
- Authors: Victor Ojewale, Harini Suresh, Suresh Venkatasubramanian,
- Abstract要約: 大規模言語モデル (LLMs) は、医療、金融、雇用、公共サービス全般にわたる連続的な決定に、ますます組み込まれている。
継続的説明責任のための社会技術的メカニズムとして監査証跡を提案する。
監査証跡は、ライフサイクルイベントや意思決定の時系列的、曖昧で、コンテキストに富んだ台帳である。
- 参考スコア(独自算出の注目度): 3.750249890675081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly embedded in consequential decisions across healthcare, finance, employment, and public services. Yet accountability remains fragile because process transparency is rarely recorded in a durable and reviewable form. We propose LLM audit trails as a sociotechnical mechanism for continuous accountability. An audit trail is a chronological, tamper-evident, context-rich ledger of lifecycle events and decisions that links technical provenance (models, data, training and evaluation runs, deployments, monitoring) with governance records (approvals, waivers, and attestations), so organizations can reconstruct what changed, when, and who authorized it. This paper contributes: (1) a lifecycle framework that specifies event types, required metadata, and governance rationales; (2) a reference architecture with lightweight emitters, append only audit stores, and an auditor interface supporting cross organizational traceability; and (3) a reusable, open-source Python implementation that instantiates this audit layer in LLM workflows with minimal integration effort. We conclude by discussing limitations and directions for adoption.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、医療、金融、雇用、公共サービス全般にわたる連続的な決定に、ますます組み込まれている。
しかし、プロセスの透明性は耐久性とレビュー可能な形式で記録されることが滅多にないため、説明責任は脆弱である。
継続的説明責任のための社会学的メカニズムとしてLCM監査経路を提案する。
監査証跡は、ライフサイクルイベントと意思決定の時間的、曖昧でコンテキストに富んだ台帳であり、技術的成果(モデル、データ、トレーニングと評価の実行、デプロイメント、監視)とガバナンス記録(承認、ウェイバー、証明)を結び付けている。
本稿では,(1)イベントタイプ,必要なメタデータ,ガバナンスの合理性を指定するライフサイクルフレームワーク,(2)軽量エミッタを備えた参照アーキテクチャ,監査ストアの追加,および組織間のトレーサビリティをサポートする監査インターフェース,(3)LLMワークフローでこの監査層を最小限の統合作業でインスタンス化する再利用可能なオープンソースPython実装を提案する。
私たちは、採用の制限と方向性を議論することで締めくくります。
関連論文リスト
- Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - ORCHID: Orchestrated Retrieval-Augmented Classification with Human-in-the-Loop Intelligent Decision-Making for High-Risk Property [6.643427585499247]
ORCHIDは、HRP分類のためのモジュール型エージェントシステムである。
検索強化世代(RAG)を人間の監視と組み合わせて、監査可能なポリシベースのアウトプットを生成する。
デモでは、単一項目の提出、接地された引用、中小企業のフィードバックキャプチャ、エクスポート可能な監査アーティファクトなどが紹介されている。
論文 参考訳(メタデータ) (2025-11-07T03:48:05Z) - "Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems [2.2981698355892686]
本稿では,新しいMLOps検証フレームワークであるZKMLOpsを紹介する。
ZKP(Zero-Knowledge Proofs)暗号プロトコルを運用し、証明者が証明者に対して、文が真実であることを納得させることができる。
我々は、金融リスク監査における規制コンプライアンスの研究を通じて、この枠組みの実践性を評価する。
論文 参考訳(メタデータ) (2025-10-30T15:03:32Z) - Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。
既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文 参考訳(メタデータ) (2025-09-30T22:19:44Z) - Invisible Tokens, Visible Bills: The Urgent Need to Audit Hidden Operations in Opaque LLM Services [22.700907666937177]
このポジションペーパーは、Opaque LLM Services(COLS)における新たな説明責任の課題を浮き彫りにしている。
トークンとコールカウントを人工的に膨らませるtextitquantity inflationと、プロバイダが低価格のモデルやツールを静かに置き換えるtextitquality downgradeの2つの主要なリスクを形式化する。
本研究では,COLSとユーザを対象としたモジュール型3層監査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-24T02:26:49Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Pragmatic auditing: a pilot-driven approach for auditing Machine Learning systems [5.26895401335509]
本稿では,欧州委員会が公表したAI-HLEGガイドラインを拡張する手順について述べる。
監査手順は、ドキュメント、説明責任、品質保証を明確に重視するMLライフサイクルモデルに基づいています。
2つの異なる組織による実世界のユースケースで実施される2つのパイロットについて説明する。
論文 参考訳(メタデータ) (2024-05-21T20:40:37Z) - OpenFactCheck: Building, Benchmarking Customized Fact-Checking Systems and Evaluating the Factuality of Claims and LLMs [59.836774258359945]
OpenFactCheckは、カスタマイズされたファクトチェックシステムを構築するためのフレームワークである。
ユーザーは自動的にファクトチェッカーをカスタマイズし、文書やクレームの事実的正当性を検証できる。
CheckerEVALは、人間の注釈付きデータセットを使用して、自動ファクトチェッカーの検証結果の信頼性を高めるソリューションである。
論文 参考訳(メタデータ) (2024-05-09T07:15:19Z) - Accountability in Offline Reinforcement Learning: Explaining Decisions
with a Corpus of Examples [70.84093873437425]
本稿では、オフラインデータセットを決定コーパスとして利用するAOC(Accountable Offline Controller)を紹介する。
AOCはローデータシナリオで効果的に動作し、厳密なオフラインの模倣設定まで拡張でき、保存性と適応性の両方の品質を示す。
シミュレーションおよび実世界の医療シナリオにおいて、AOCのパフォーマンスを評価し、説明責任を維持しながら高いレベルのパフォーマンスでオフライン制御タスクを管理する能力を強調した。
論文 参考訳(メタデータ) (2023-10-11T17:20:32Z) - Multi-view Contrastive Self-Supervised Learning of Accounting Data
Representations for Downstream Audit Tasks [1.9659095632676094]
国際監査基準では、財務諸表の根底にある会計取引を直接評価する必要がある。
ディープラーニングにインスパイアされた監査技術は、大量のジャーナルエントリデータを監査する分野に現れている。
本研究では,監査タスク不変な会計データ表現の学習を目的とした,自己指導型自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T08:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。