論文の概要: Developing a Framework for Auditing Large Language Models Using
Human-in-the-Loop
- arxiv url: http://arxiv.org/abs/2402.09346v2
- Date: Fri, 16 Feb 2024 16:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 12:39:07.470710
- Title: Developing a Framework for Auditing Large Language Models Using
Human-in-the-Loop
- Title(参考訳): Human-in-the-Loop を用いた大規模言語モデル監査フレームワークの開発
- Authors: Maryam Amirizaniani, Jihan Yao, Adrian Lavergne, Elizabeth Snell
Okada, Aman Chadha, Tanya Roosta, Chirag Shah
- Abstract要約: 例えば、バイアス、矛盾、幻覚などがある。
有効な方法は、同じ質問の異なるバージョンを用いてLLMを探索することである。
この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要である。
- 参考スコア(独自算出の注目度): 8.159685593135407
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As LLMs become more pervasive across various users and scenarios, identifying
potential issues when using these models becomes essential. Examples include
bias, inconsistencies, and hallucination. Although auditing the LLM for these
problems is desirable, it is far from being easy or solved. An effective method
is to probe the LLM using different versions of the same question. This could
expose inconsistencies in its knowledge or operation, indicating potential for
bias or hallucination. However, to operationalize this auditing method at
scale, we need an approach to create those probes reliably and automatically.
In this paper we propose an automatic and scalable solution, where one uses a
different LLM along with human-in-the-loop. This approach offers verifiability
and transparency, while avoiding circular reliance on the same LLMs, and
increasing scientific rigor and generalizability. Specifically, we present a
novel methodology with two phases of verification using humans: standardized
evaluation criteria to verify responses, and a structured prompt template to
generate desired probes. Experiments on a set of questions from TruthfulQA
dataset show that we can generate a reliable set of probes from one LLM that
can be used to audit inconsistencies in a different LLM. The criteria for
generating and applying auditing probes is generalizable to various LLMs
regardless of the underlying structure or training mechanism.
- Abstract(参考訳): LLMがさまざまなユーザやシナリオに広まるにつれて、これらのモデルを使用する際の潜在的な問題を特定することが不可欠になります。
例えば、バイアス、矛盾、幻覚などがある。
これらの問題に対するLCMの監査は望ましいが、簡単あるいは解決には程遠い。
有効な方法は、同じ質問の異なるバージョンを用いてLLMを探索することである。
これは知識や操作の不整合を露呈し、偏見や幻覚の可能性を示唆する。
しかしながら、この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要です。
本稿では,ループ内の人間とともに異なるllmを使用する自動かつスケーラブルなソリューションを提案する。
このアプローチは検証可能性と透明性を提供し、同じllmへの循環依存を回避し、科学的厳密さと一般化性を高める。
具体的には,人間を用いた2段階の検証を行う新しい手法を提案する。応答の検証のための標準評価基準と,所望のプローブを生成するための構造化されたプロンプトテンプレートである。
TruthfulQAデータセットからの一連の質問に対する実験は、異なるLLMの不整合を監査するために使用できる、あるLLMから信頼できるプローブセットを生成することができることを示している。
監査プローブの生成および適用基準は、基礎となる構造や訓練機構にかかわらず、様々なLCMに対して一般化可能である。
関連論文リスト
- Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
音声言語では、発話は効率性のために不完全または曖昧な形をしていることが多い。
モデルがユーザクエリの本質的なあいまいさを十分に扱うためには、非常に重要です。
本稿では,あいまいな入力を明示的に処理する対話エージェントのアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-18T07:59:53Z) - MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つ小型モデルを400倍のコストで構築する方法を示す。
既存のデータセットを LLM-AggreFact ベンチマークにまとめる。
我々の最良のシステム MiniCheck-FT5 (770Mパラメータ) は、同等の大きさの全てのシステムより優れ、GPT-4精度に達する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - Aligners: Decoupling LLMs and Alignment [49.8019652005368]
大きな言語モデル(LLM)は、ほとんどのアプリケーションで安全性と実用性を確保するために、人間の期待に沿う必要がある。
そこで本稿では,LLM とアライメントを,任意の基準をアライメントするためのアライメントモデルのトレーニングによって分離することを提案する。
論文 参考訳(メタデータ) (2024-03-07T04:54:56Z) - AuditLLM: A Tool for Auditing Large Language Models Using Multiprobe
Approach [10.133328312573724]
AuditLLMは様々な大規模言語モデルの性能を体系的に評価する新しいツールである。
合理的に堅牢で、信頼性があり、一貫性のあるLCMは、質問に対して意味的に類似した応答を出力すべきである。
あるレベルの矛盾が潜在的なバイアス、幻覚、その他の問題の指標であることが示されている。
論文 参考訳(メタデータ) (2024-02-14T17:31:04Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。