Fugu-MT 論文翻訳(概要): Auditing large language models: a three-layered approach

論文の概要: Auditing large language models: a three-layered approach

arxiv url: http://arxiv.org/abs/2302.08500v2
Date: Tue, 27 Jun 2023 07:40:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-28 17:26:35.364589
Title: Auditing large language models: a three-layered approach
Title（参考訳）: 大規模言語モデルの監査: 3層アプローチ
Authors: Jakob M\"okander, Jonas Schuett, Hannah Rose Kirk, Luciano Floridi
Abstract要約: 大規模言語モデル(LLM)は人工知能(AI)研究における大きな進歩を表している。 LLMはまた、重大な倫理的・社会的課題と結びついている。これまでの研究は、監査を有望なガバナンスメカニズムとして取り上げてきた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) represent a major advance in artificial intelligence (AI) research. However, the widespread use of LLMs is also coupled with significant ethical and social challenges. Previous research has pointed towards auditing as a promising governance mechanism to help ensure that AI systems are designed and deployed in ways that are ethical, legal, and technically robust. However, existing auditing procedures fail to address the governance challenges posed by LLMs, which display emergent capabilities and are adaptable to a wide range of downstream tasks. In this article, we address that gap by outlining a novel blueprint for how to audit LLMs. Specifically, we propose a three-layered approach, whereby governance audits (of technology providers that design and disseminate LLMs), model audits (of LLMs after pre-training but prior to their release), and application audits (of applications based on LLMs) complement and inform each other. We show how audits, when conducted in a structured and coordinated manner on all three levels, can be a feasible and effective mechanism for identifying and managing some of the ethical and social risks posed by LLMs. However, it is important to remain realistic about what auditing can reasonably be expected to achieve. Therefore, we discuss the limitations not only of our three-layered approach but also of the prospect of auditing LLMs at all. Ultimately, this article seeks to expand the methodological toolkit available to technology providers and policymakers who wish to analyse and evaluate LLMs from technical, ethical, and legal perspectives.
Abstract（参考訳）: 大規模言語モデル(LLM)は人工知能(AI)研究における大きな進歩を表している。しかし、LLMの普及は、重大な倫理的・社会的課題とも結びついている。従来の研究は、AIシステムが倫理的、法的、技術的に堅牢な方法で設計され、デプロイされることを保証するための、有望なガバナンスメカニズムとしての監査を指している。しかし、既存の監査手順は、広範囲の下流タスクに適応可能な緊急能力を示すLCMによってもたらされるガバナンス上の課題に対処できない。本稿では,LSMの監査方法に関する新しい青写真について概説し,そのギャップに対処する。具体的には、ガバナンス監査(LLMの設計と普及を行う技術プロバイダの)、モデル監査(LLMの事前トレーニング後だがリリース前)、アプリケーション監査(LLMベースのアプリケーション)が相互に補完し、通知する3層的なアプローチを提案する。 LLMがもたらす倫理的・社会的リスクの特定と管理において,3つのレベルすべてにおいて,監査が構造化・調整された方法で実施され,効果的に実施可能であることを示す。しかし、監査が適切に達成できることについては、現実的に続けることが重要です。そこで我々は,3層化アプローチの限界だけでなく,LCMの監査の可能性についても論じる。本稿は,LLMを技術的,倫理的,法的視点から分析・評価したい技術提供者や政策立案者に対して,方法論的ツールキットの拡大を目指す。

関連論文リスト

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities [75.10343190811592]
大規模言語モデル(LLM)は、社会的に敏感なドメインにますますデプロイされる。私たちのベンチマークでは、安全で制御可能な振る舞いのための原則的で解釈可能なフレームワークを提供しています。
論文参考訳（メタデータ） (2026-03-03T03:50:13Z)
LLMs as verification oracles for Solidity [1.3887048755037537]
本稿では,この役割において,最先端の推論LLMである GPT-5 を初めて体系的に評価する。我々は,大規模な検証タスクのデータセット上でその性能をベンチマークし,その出力を確立された形式的検証ツールと比較し,実世界の監査シナリオにおける実効性を評価する。我々の研究は、AIの収束における新たなフロンティアと、セキュアなスマートコントラクト開発と監査のための形式的手法を示唆している。
論文参考訳（メタデータ） (2025-09-23T15:32:13Z)
How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文参考訳（メタデータ） (2025-09-18T17:56:30Z)
Introspection of Thought Helps AI Agents [19.04968632268433]
大規模言語モデル(LLM)とマルチモーダルLLM(MLLM)が最も重要な役割を担い、AIエージェントの初期能力と限界を決定する。本稿では,新しいLLM-Read コードを即座に設計することで,思考のイントロスペクション(INoT)を用いたAIエージェント推論フレームワークを提案する。 INoTの有効性は, 平均性能が7.95%向上し, ベースラインを超えることが確認された。
論文参考訳（メタデータ） (2025-07-11T15:03:17Z)
Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs [58.24692529185971]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文参考訳（メタデータ） (2025-05-29T09:19:07Z)
Using LLMs for Automated Privacy Policy Analysis: Prompt Engineering, Fine-Tuning and Explainability [16.537038702325283]
機械学習ベースの分類器は、特定のプライバシポリシにおける異なる概念の検出を自動化するために開発された。大規模言語モデル(LLM)を多くのNLPタスクに適用することは成功したが、自動プライバシポリシ分析にLLMを使うことを研究する研究はほとんどない。
論文参考訳（メタデータ） (2025-03-16T10:50:31Z)
AuditWen:An Open-Source Large Language Model for Audit [20.173039073935907]
本研究では、Qwenを微調整し、監査領域から命令データを構築するオープンソースの監査LCMであるAuditWenを紹介する。我々は、15の監査タスクと3つのレイヤから28kの命令データセットを構築したQwenを微調整することで、AuditWenと呼ばれる監査LPMを提案する。評価段階において、アプリケーションシナリオから派生した重要な監査タスクのセットをカバーする3k命令のベンチマークを提案した。実験の結果,AuditWenは質問理解と回答生成の両方において優れた性能を示し,即時評価ツールとなった。
論文参考訳（メタデータ） (2024-10-09T02:28:55Z)
Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文参考訳（メタデータ） (2024-10-06T21:20:06Z)
A Blueprint for Auditing Generative AI [0.9999629695552196]
生成AIシステムは創発的な能力を示し、幅広い下流タスクに適応できる。既存の監査手順は、生成的AIシステムによって引き起こされるガバナンスの課題に対処できない。本稿では、生成AIシステムの設計と普及を行う技術提供者のガバナンス監査、事前学習後の生成AIシステムのモデル監査、生成AIシステムに基づくアプリケーションのアプリケーション監査という3層的なアプローチを提案する。
論文参考訳（メタデータ） (2024-07-07T11:56:54Z)
A Reality check of the benefits of LLM in business [1.9181612035055007]
大規模言語モデル(LLM)は、言語理解および生成タスクにおいて顕著なパフォーマンスを達成した。ビジネスプロセスにおけるLCMの有用性と準備性について概説する。
論文参考訳（メタデータ） (2024-06-09T02:36:00Z)
Large Language Model in Financial Regulatory Interpretation [0.276240219662896]
本研究では、複雑な金融規制を解釈するための分析ツールとして、LLM(Large Language Models)の革新的利用について検討する。主な目的は、動詞の蒸留や複雑な規制文書の抽出においてLLMを導く効果的なプロンプトを設計することである。この新たなアプローチは、グローバル金融機関の金融報告・リスクマネジメントシステムにおける規制委任事項の実施を円滑化することを目的としている。
論文参考訳（メタデータ） (2024-05-10T20:45:40Z)
A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文参考訳（メタデータ） (2024-05-02T22:43:02Z)
Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文参考訳（メタデータ） (2024-03-04T10:48:13Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
A Comprehensive Evaluation of Large Language Models on Legal Judgment Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。 GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文参考訳（メタデータ） (2023-10-18T07:38:04Z)
How Can Recommender Systems Benefit from Large Language Models: A Survey [82.06729592294322]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文参考訳（メタデータ） (2023-06-09T11:31:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。