論文の概要: AuditLLM: A Tool for Auditing Large Language Models Using Multiprobe
Approach
- arxiv url: http://arxiv.org/abs/2402.09334v1
- Date: Wed, 14 Feb 2024 17:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:20:54.690471
- Title: AuditLLM: A Tool for Auditing Large Language Models Using Multiprobe
Approach
- Title(参考訳): auditllm: multiprobe アプローチによる大規模言語モデルの監査ツール
- Authors: Maryam Amirizaniani, Tanya Roosta, Aman Chadha, Chirag Shah
- Abstract要約: AuditLLMは様々な大規模言語モデルの性能を体系的に評価する新しいツールである。
合理的に堅牢で、信頼性があり、一貫性のあるLCMは、質問に対して意味的に類似した応答を出力すべきである。
あるレベルの矛盾が潜在的なバイアス、幻覚、その他の問題の指標であることが示されている。
- 参考スコア(独自算出の注目度): 10.133328312573724
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As Large Language Models (LLMs) gain wider adoption in various contexts, it
becomes crucial to ensure they are reasonably safe, consistent, and reliable
for an application at hand. This may require probing or auditing them. Probing
LLMs with varied iterations of a single question could reveal potential
inconsistencies in their knowledge or functionality. However, a tool for
performing such audits with simple workflow and low technical threshold is
lacking. In this demo, we introduce "AuditLLM," a novel tool designed to
evaluate the performance of various LLMs in a methodical way. AuditLLM's core
functionality lies in its ability to test a given LLM by auditing it using
multiple probes generated from a single question, thereby identifying any
inconsistencies in the model's understanding or operation. A reasonably robust,
reliable, and consistent LLM should output semantically similar responses for a
question asked differently or by different people. Based on this assumption,
AuditLLM produces easily interpretable results regarding the LLM's
consistencies from a single question that the user enters. A certain level of
inconsistency has been shown to be an indicator of potential bias,
hallucinations, and other issues. One could then use the output of AuditLLM to
further investigate issues with the aforementioned LLM. To facilitate
demonstration and practical uses, AuditLLM offers two key modes: (1) Live mode
which allows instant auditing of LLMs by analyzing responses to real-time
queries; (2) Batch mode which facilitates comprehensive LLM auditing by
processing multiple queries at once for in-depth analysis. This tool is
beneficial for both researchers and general users, as it enhances our
understanding of LLMs' capabilities in generating responses, using a
standardized auditing platform.
- Abstract(参考訳): 大規模言語モデル(llm)がさまざまな状況で広く採用されるようになるにつれ、アプリケーションの安全性、一貫性、信頼性を確保することが重要になります。
調査や監査が必要かもしれない。
一つの質問の繰り返しの異なる LLM を求めると、その知識や機能の潜在的な矛盾が明らかになる。
しかし、単純なワークフローと低い技術閾値で監査を行うツールは欠落している。
本稿では,様々なLLMの性能を体系的に評価する新しいツールであるAuditLLMを紹介する。
AuditLLMのコア機能は、1つの質問から生成された複数のプローブを使って監査することで、与えられたLLMをテストする能力にある。
合理的に堅牢で信頼性があり、一貫性のあるllmは、質問に対して意味的に類似した応答を出力すべきである。
この仮定に基づいて、AuditLLM はユーザが入力した単一の質問から LLM の相補性について簡単に解釈可能な結果を生成する。
あるレベルの矛盾は潜在的なバイアス、幻覚、その他の問題の指標であることが示されている。
次に AuditLLM の出力を使用して、前述の LLM の問題をさらに調査することができる。
AuditLLM は,実時間クエリに対する応答を解析して LLM の即時監査を可能にするライブモードと,複数のクエリを同時に処理して詳細な分析を行う包括的 LLM 監査を容易にするバッチモードの2つのキーモードを提供する。
このツールは,標準監査プラットフォームを用いて,LLMの応答生成能力の理解を深めるため,研究者と一般ユーザ双方にとって有益である。
関連論文リスト
- Evaluating Consistencies in LLM responses through a Semantic Clustering of Question Answering [1.9214041945441436]
本稿では,Large Language Model (LLM) のセマンティクスを評価するための新しいアプローチを提案する。
本稿では,LLM再応答が意味論的に一致しているかどうかを考察し,構文的に異なる文が同じ意味を持つ可能性があることを認識した。
TruthfulQAデータセットを用いてLLM応答を評価することにより、37のカテゴリにわたる意味的一貫性を測定するために、質問毎にNの応答を誘導し、意味的に等価な文をクラスタ化する。
論文 参考訳(メタデータ) (2024-10-20T16:21:25Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning [9.601067780210006]
本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。
教師付き微調整 (SFT) では, 文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し, 異常を識別する。
論文 参考訳(メタデータ) (2024-07-24T16:33:04Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - LLMAuditor: A Framework for Auditing Large Language Models Using Human-in-the-Loop [7.77005079649294]
有効な方法は、同じ質問の異なるバージョンを使って、大きな言語モデルを探索することである。
この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要である。
我々はLLMAuditorフレームワークを提案し、異なるLLMとHIL(Human-in-the-loop)を併用する。
このアプローチは、検証性と透明性を提供すると同時に、同じLLMへの円形依存を回避する。
論文 参考訳(メタデータ) (2024-02-14T17:49:31Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。