Fugu-MT 論文翻訳(概要): Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks

論文の概要: Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks

arxiv url: http://arxiv.org/abs/2310.12516v1
Date: Thu, 19 Oct 2023 06:37:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 16:36:46.454344
Title: Automatic Hallucination Assessment for Aligned Large Language Models via Transferable Adversarial Attacks
Title（参考訳）: トランスファーブル・アタックによる大規模言語モデルの自動幻覚評価
Authors: Xiaodong Yu, Hao Cheng, Xiaodong Liu, Dan Roth, Jianfeng Gao
Abstract要約: 本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。具体的には,LLM ベースのフレームワークである Auto Debug について述べる。実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
参考スコア（独自算出の注目度）: 98.22864957942821
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although remarkable progress has been achieved in preventing large language model (LLM) hallucinations using instruction tuning and retrieval augmentation, it remains challenging to measure the reliability of LLMs using human-crafted evaluation data which is not available for many tasks and domains and could suffer from data leakage. Inspired by adversarial machine learning, this paper aims to develop a method of automatically generating evaluation data by appropriately modifying existing data on which LLMs behave faithfully. Specifically, this paper presents AutoDebug, an LLM-based framework to use prompting chaining to generate transferable adversarial attacks in the form of question-answering examples. We seek to understand the extent to which these examples trigger the hallucination behaviors of LLMs. We implement AutoDebug using ChatGPT and evaluate the resulting two variants of a popular open-domain question-answering dataset, Natural Questions (NQ), on a collection of open-source and proprietary LLMs under various prompting settings. Our generated evaluation data is human-readable and, as we show, humans can answer these modified questions well. Nevertheless, we observe pronounced accuracy drops across multiple LLMs including GPT-4. Our experimental results show that LLMs are likely to hallucinate in two categories of question-answering scenarios where (1) there are conflicts between knowledge given in the prompt and their parametric knowledge, or (2) the knowledge expressed in the prompt is complex. Finally, we find that the adversarial examples generated by our method are transferable across all considered LLMs. The examples generated by a small model can be used to debug a much larger model, making our approach cost-effective.
Abstract（参考訳）: 大規模な言語モデル(LLM)の幻覚を命令調律と検索拡張を用いて防止することは目覚ましいが、多くのタスクやドメインで利用できない、データ漏洩に悩まされるような人為的な評価データを用いて、LLMの信頼性を測定することは依然として困難である。本稿では,LLMが忠実に振る舞う既存のデータを適切に修正して評価データを自動的に生成する手法を開発することを目的とする。具体的には,プロンプトチェーンを使用して,質問応答例の形で転送可能な敵攻撃を生成する,llmベースのフレームワークであるautodebugを提案する。これらの例がLLMの幻覚行動を引き起こす程度について理解を深める。我々はChatGPTを用いてAutoDebugを実装し、様々なプロンプト設定の下でオープンソースおよびプロプライエタリなLCMのコレクション上で、人気のあるオープンドメイン質問応答データセットであるNatural Questions (NQ) の2つの変種を評価する。我々の生成した評価データは、人間が読めるものであり、私たちが示すように、人間がこれらの修正された質問に答えることができる。しかし, GPT-4を含む複数のLDMの精度低下は顕著である。実験結果から, LLMは, 1)プロンプトに与えられた知識とパラメトリックな知識との間に矛盾がある,(2)プロンプトに表される知識が複雑である,という2つのカテゴリに幻覚する可能性が示唆された。最後に,本手法で生成した逆例は,LLMのすべてに対して転送可能であることを示す。小さなモデルによって生成された例は、はるかに大きなモデルをデバッグするために使用することができ、我々のアプローチはコスト効率が良い。

関連論文リスト

Can We Infer Confidential Properties of Training Data from LLMs? [24.330349002990438]
大規模言語モデル(LLM)のプロパティ推論を評価するベンチマークタスクであるPropInferを紹介する。 ChatDoctorデータセット上に構築されたベンチマークには、さまざまなプロパティタイプとタスク設定が含まれています。本稿では,単語周波数信号を利用したプロンプトベース生成攻撃とシャドウモデル攻撃の2つを提案する。
論文参考訳（メタデータ） (2025-06-12T05:42:06Z)
Data-efficient Meta-models for Evaluation of Context-based Questions and Answers in LLMs [1.6332728502735252]
大規模言語モデル(LLM)とレトリーバル拡張生成(RAG)システムは、産業アプリケーションにますます多くデプロイされている。その信頼性は、幻覚検出の課題によって妨げられている。本稿では,データアノテーションのボトルネックを,トレーニングデータ要件の低減の可能性を検討することによって解決する。
論文参考訳（メタデータ） (2025-05-29T09:50:56Z)
Memorization or Interpolation ? Detecting LLM Memorization through Input Perturbation Analysis [8.725781605542675]
大規模言語モデル(LLM)は,大規模なデータセットのトレーニングを通じて,優れたパフォーマンスを実現する。 LLMは、真の一般化ではなく、トレーニングデータの冗長な再現のような振る舞いを示すことができる。本稿では, LLMにおける暗記検出のための新しい手法であるPEARLを紹介する。
論文参考訳（メタデータ） (2025-05-05T20:42:34Z)
TALE: A Tool-Augmented Framework for Reference-Free Evaluation of Large Language Models [16.857263524133284]
大規模言語モデル(LLM)は、現実の自律型アプリケーションに統合されつつある。評価のための静的な注釈付き参照に頼ることは、コスト、スケーラビリティ、完全性において大きな課題を引き起こす。提案するツール拡張LDM評価(TALE: Tool-Augmented LLM Evaluation)は,LLMの出力を所定の基礎的回答なしで評価するフレームワークである。
論文参考訳（メタデータ） (2025-04-10T02:08:41Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
On the Capacity of Citation Generation by Large Language Models [38.47160164251295]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における「ハロシン化」問題を緩和するための有望な方法として現れる。
論文参考訳（メタデータ） (2024-10-15T03:04:26Z)
THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。 THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文参考訳（メタデータ） (2024-09-17T16:55:25Z)
Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文参考訳（メタデータ） (2024-07-29T09:05:10Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Enhancing Large Language Model Performance To Answer Questions and Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文参考訳（メタデータ） (2024-01-27T00:18:07Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。