論文の概要: Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2310.12516v1
- Date: Thu, 19 Oct 2023 06:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 16:36:46.454344
- Title: Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks
- Title(参考訳): トランスファーブル・アタックによる大規模言語モデルの自動幻覚評価
- Authors: Xiaodong Yu, Hao Cheng, Xiaodong Liu, Dan Roth, Jianfeng Gao
- Abstract要約: 本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
- 参考スコア(独自算出の注目度): 98.22864957942821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although remarkable progress has been achieved in preventing large language
model (LLM) hallucinations using instruction tuning and retrieval augmentation,
it remains challenging to measure the reliability of LLMs using human-crafted
evaluation data which is not available for many tasks and domains and could
suffer from data leakage. Inspired by adversarial machine learning, this paper
aims to develop a method of automatically generating evaluation data by
appropriately modifying existing data on which LLMs behave faithfully.
Specifically, this paper presents AutoDebug, an LLM-based framework to use
prompting chaining to generate transferable adversarial attacks in the form of
question-answering examples. We seek to understand the extent to which these
examples trigger the hallucination behaviors of LLMs.
We implement AutoDebug using ChatGPT and evaluate the resulting two variants
of a popular open-domain question-answering dataset, Natural Questions (NQ), on
a collection of open-source and proprietary LLMs under various prompting
settings. Our generated evaluation data is human-readable and, as we show,
humans can answer these modified questions well. Nevertheless, we observe
pronounced accuracy drops across multiple LLMs including GPT-4. Our
experimental results show that LLMs are likely to hallucinate in two categories
of question-answering scenarios where (1) there are conflicts between knowledge
given in the prompt and their parametric knowledge, or (2) the knowledge
expressed in the prompt is complex. Finally, we find that the adversarial
examples generated by our method are transferable across all considered LLMs.
The examples generated by a small model can be used to debug a much larger
model, making our approach cost-effective.
- Abstract(参考訳): 大規模な言語モデル(LLM)の幻覚を命令調律と検索拡張を用いて防止することは目覚ましいが、多くのタスクやドメインで利用できない、データ漏洩に悩まされるような人為的な評価データを用いて、LLMの信頼性を測定することは依然として困難である。
本稿では,LLMが忠実に振る舞う既存のデータを適切に修正して評価データを自動的に生成する手法を開発することを目的とする。
具体的には,プロンプトチェーンを使用して,質問応答例の形で転送可能な敵攻撃を生成する,llmベースのフレームワークであるautodebugを提案する。
これらの例がLLMの幻覚行動を引き起こす程度について理解を深める。
我々はChatGPTを用いてAutoDebugを実装し、様々なプロンプト設定の下でオープンソースおよびプロプライエタリなLCMのコレクション上で、人気のあるオープンドメイン質問応答データセットであるNatural Questions (NQ) の2つの変種を評価する。
我々の生成した評価データは、人間が読めるものであり、私たちが示すように、人間がこれらの修正された質問に答えることができる。
しかし, GPT-4を含む複数のLDMの精度低下は顕著である。
実験結果から, LLMは, 1)プロンプトに与えられた知識とパラメトリックな知識との間に矛盾がある,(2)プロンプトに表される知識が複雑である,という2つのカテゴリに幻覚する可能性が示唆された。
最後に,本手法で生成した逆例は,LLMのすべてに対して転送可能であることを示す。
小さなモデルによって生成された例は、はるかに大きなモデルをデバッグするために使用することができ、我々のアプローチはコスト効率が良い。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - On the Capacity of Citation Generation by Large Language Models [38.47160164251295]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における「ハロシン化」問題を緩和するための有望な方法として現れる。
論文 参考訳(メタデータ) (2024-10-15T03:04:26Z) - THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。
本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。
THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-17T16:55:25Z) - Towards Building a Robust Knowledge Intensive Question Answering Model with Large Language Models [4.4849006637642805]
抽出された情報におけるノイズや誤差の存在は、LLMの堅牢性に課題をもたらす。
ノイズの多い外部情報によるモデル精度低下の問題に対処するため,データ拡張に基づく微調整手法を提案する。
我々は既存のLCMと我々のアプローチの両方で実験を行い、その結果をGPT-4で評価した。
論文 参考訳(メタデータ) (2024-09-09T07:32:30Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。