論文の概要: Developing a Framework for Auditing Large Language Models Using
Human-in-the-Loop
- arxiv url: http://arxiv.org/abs/2402.09346v1
- Date: Wed, 14 Feb 2024 17:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:06:07.343392
- Title: Developing a Framework for Auditing Large Language Models Using
Human-in-the-Loop
- Title(参考訳): Human-in-the-Loop を用いた大規模言語モデル監査フレームワークの開発
- Authors: Maryam Amirizaniani, Jihan Yao, Adrian Lavergne, Elizabeth Snell
Okada, Aman Chadha, Tanya Roosta, Chirag Shah
- Abstract要約: 例えば、バイアス、矛盾、幻覚などがある。
有効な方法は、同じ質問の異なるバージョンを用いてLLMを探索することである。
この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要である。
- 参考スコア(独自算出の注目度): 8.159685593135407
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As LLMs become more pervasive across various users and scenarios, identifying
potential issues when using these models becomes essential. Examples include
bias, inconsistencies, and hallucination. Although auditing the LLM for these
problems is desirable, it is far from being easy or solved. An effective method
is to probe the LLM using different versions of the same question. This could
expose inconsistencies in its knowledge or operation, indicating potential for
bias or hallucination. However, to operationalize this auditing method at
scale, we need an approach to create those probes reliably and automatically.
In this paper we propose an automatic and scalable solution, where one uses a
different LLM along with human-in-the-loop. This approach offers verifiability
and transparency, while avoiding circular reliance on the same LLMs, and
increasing scientific rigor and generalizability. Specifically, we present a
novel methodology with two phases of verification using humans: standardized
evaluation criteria to verify responses, and a structured prompt template to
generate desired probes. Experiments on a set of questions from TruthfulQA
dataset show that we can generate a reliable set of probes from one LLM that
can be used to audit inconsistencies in a different LLM. The criteria for
generating and applying auditing probes is generalizable to various LLMs
regardless of the underlying structure or training mechanism.
- Abstract(参考訳): LLMがさまざまなユーザやシナリオに広まるにつれて、これらのモデルを使用する際の潜在的な問題を特定することが不可欠になります。
例えば、バイアス、矛盾、幻覚などがある。
これらの問題に対するLCMの監査は望ましいが、簡単あるいは解決には程遠い。
有効な方法は、同じ質問の異なるバージョンを用いてLLMを探索することである。
これは知識や操作の不整合を露呈し、偏見や幻覚の可能性を示唆する。
しかしながら、この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要です。
本稿では,ループ内の人間とともに異なるllmを使用する自動かつスケーラブルなソリューションを提案する。
このアプローチは検証可能性と透明性を提供し、同じllmへの循環依存を回避し、科学的厳密さと一般化性を高める。
具体的には,人間を用いた2段階の検証を行う新しい手法を提案する。応答の検証のための標準評価基準と,所望のプローブを生成するための構造化されたプロンプトテンプレートである。
TruthfulQAデータセットからの一連の質問に対する実験は、異なるLLMの不整合を監査するために使用できる、あるLLMから信頼できるプローブセットを生成することができることを示している。
監査プローブの生成および適用基準は、基礎となる構造や訓練機構にかかわらず、様々なLCMに対して一般化可能である。
関連論文リスト
- Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。
私たちの評価は幻覚を構成するものに関して微妙な点を呈する。
既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文 参考訳(メタデータ) (2024-06-05T17:49:47Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - AuditLLM: A Tool for Auditing Large Language Models Using Multiprobe Approach [8.646131951484696]
AuditLLMは様々な大規模言語モデル(LLM)のパフォーマンスを方法論的に監査するために設計された新しいツールである。
堅牢で信頼性があり、一貫性のあるLCMは、同じ質問の可変なフレーズ付きバージョンに対する意味論的に類似した応答を生成することが期待されている。
あるレベルの矛盾が潜在的なバイアス、幻覚、その他の問題の指標であることが示されている。
論文 参考訳(メタデータ) (2024-02-14T17:31:04Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。