論文の概要: Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2310.12516v1
- Date: Thu, 19 Oct 2023 06:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 16:36:46.454344
- Title: Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks
- Title(参考訳): トランスファーブル・アタックによる大規模言語モデルの自動幻覚評価
- Authors: Xiaodong Yu, Hao Cheng, Xiaodong Liu, Dan Roth, Jianfeng Gao
- Abstract要約: 本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
- 参考スコア(独自算出の注目度): 98.22864957942821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although remarkable progress has been achieved in preventing large language
model (LLM) hallucinations using instruction tuning and retrieval augmentation,
it remains challenging to measure the reliability of LLMs using human-crafted
evaluation data which is not available for many tasks and domains and could
suffer from data leakage. Inspired by adversarial machine learning, this paper
aims to develop a method of automatically generating evaluation data by
appropriately modifying existing data on which LLMs behave faithfully.
Specifically, this paper presents AutoDebug, an LLM-based framework to use
prompting chaining to generate transferable adversarial attacks in the form of
question-answering examples. We seek to understand the extent to which these
examples trigger the hallucination behaviors of LLMs.
We implement AutoDebug using ChatGPT and evaluate the resulting two variants
of a popular open-domain question-answering dataset, Natural Questions (NQ), on
a collection of open-source and proprietary LLMs under various prompting
settings. Our generated evaluation data is human-readable and, as we show,
humans can answer these modified questions well. Nevertheless, we observe
pronounced accuracy drops across multiple LLMs including GPT-4. Our
experimental results show that LLMs are likely to hallucinate in two categories
of question-answering scenarios where (1) there are conflicts between knowledge
given in the prompt and their parametric knowledge, or (2) the knowledge
expressed in the prompt is complex. Finally, we find that the adversarial
examples generated by our method are transferable across all considered LLMs.
The examples generated by a small model can be used to debug a much larger
model, making our approach cost-effective.
- Abstract(参考訳): 大規模な言語モデル(LLM)の幻覚を命令調律と検索拡張を用いて防止することは目覚ましいが、多くのタスクやドメインで利用できない、データ漏洩に悩まされるような人為的な評価データを用いて、LLMの信頼性を測定することは依然として困難である。
本稿では,LLMが忠実に振る舞う既存のデータを適切に修正して評価データを自動的に生成する手法を開発することを目的とする。
具体的には,プロンプトチェーンを使用して,質問応答例の形で転送可能な敵攻撃を生成する,llmベースのフレームワークであるautodebugを提案する。
これらの例がLLMの幻覚行動を引き起こす程度について理解を深める。
我々はChatGPTを用いてAutoDebugを実装し、様々なプロンプト設定の下でオープンソースおよびプロプライエタリなLCMのコレクション上で、人気のあるオープンドメイン質問応答データセットであるNatural Questions (NQ) の2つの変種を評価する。
我々の生成した評価データは、人間が読めるものであり、私たちが示すように、人間がこれらの修正された質問に答えることができる。
しかし, GPT-4を含む複数のLDMの精度低下は顕著である。
実験結果から, LLMは, 1)プロンプトに与えられた知識とパラメトリックな知識との間に矛盾がある,(2)プロンプトに表される知識が複雑である,という2つのカテゴリに幻覚する可能性が示唆された。
最後に,本手法で生成した逆例は,LLMのすべてに対して転送可能であることを示す。
小さなモデルによって生成された例は、はるかに大きなモデルをデバッグするために使用することができ、我々のアプローチはコスト効率が良い。
関連論文リスト
- Unmemorization in Large Language Models via Self-Distillation and
Deliberate Imagination [58.36408867180233]
大規模言語モデル(LLM)は、プライバシー侵害や機密データの不要な露出といった重要な問題に苦慮している。
我々は、LLMアンラーニングの文脈において、意図的な想像力という新しいアプローチを導入する。
本研究は,異なるモデルとサイズにまたがるこのアプローチの有用性を示し,パラメータ効率の良い微調整を行った。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - Developing a Framework for Auditing Large Language Models Using
Human-in-the-Loop [8.159685593135407]
例えば、バイアス、矛盾、幻覚などがある。
有効な方法は、同じ質問の異なるバージョンを用いてLLMを探索することである。
この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要である。
論文 参考訳(メタデータ) (2024-02-14T17:49:31Z) - Revisit Input Perturbation Problems for LLMs: A Unified Robustness
Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。
具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。
本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文 参考訳(メタデータ) (2023-10-10T10:22:05Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z) - LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language
Models [13.659853119356507]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクにおいて印象的な能力を示した。
彼らは幻覚を起こす傾向があり、モデルがその反応の中で誤った情報や誤った情報を公開する。
ユーザによるQ&Aデータセットに対するLLMの性能評価を可能にする新しい可視化手法として,LLMMapsを提案する。
論文 参考訳(メタデータ) (2023-04-02T05:47:09Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。