論文の概要: Guiding LLM to Fool Itself: Automatically Manipulating Machine Reading
Comprehension Shortcut Triggers
- arxiv url: http://arxiv.org/abs/2310.18360v1
- Date: Tue, 24 Oct 2023 12:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-05 13:38:27.121040
- Title: Guiding LLM to Fool Itself: Automatically Manipulating Machine Reading
Comprehension Shortcut Triggers
- Title(参考訳): 自力でLPMを誘導する: 機械の読み出しを自動で操作するショートカットトリガー
- Authors: Mosh Levy, Shauli Ravfogel, Yoav Goldberg
- Abstract要約: 真のラベルに急激な相関関係を持つ機能によって引き起こされるショートカットは、機械読み取り(MRC)システムに対する潜在的な脅威として現れている。
サンプルにショートカットトリガーを追加するためのエディタをガイドするフレームワークを導入します。
GPT4をエディタとして使うと、LCMを騙すサンプルのトリガショートカットをうまく編集できる。
- 参考スコア(独自算出の注目度): 76.77077447576679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent applications of LLMs in Machine Reading Comprehension (MRC) systems
have shown impressive results, but the use of shortcuts, mechanisms triggered
by features spuriously correlated to the true label, has emerged as a potential
threat to their reliability. We analyze the problem from two angles: LLMs as
editors, guided to edit text to mislead LLMs; and LLMs as readers, who answer
questions based on the edited text. We introduce a framework that guides an
editor to add potential shortcuts-triggers to samples. Using GPT4 as the
editor, we find it can successfully edit trigger shortcut in samples that fool
LLMs. Analysing LLMs as readers, we observe that even capable LLMs can be
deceived using shortcut knowledge. Strikingly, we discover that GPT4 can be
deceived by its own edits (15% drop in F1). Our findings highlight inherent
vulnerabilities of LLMs to shortcut manipulations. We publish ShortcutQA, a
curated dataset generated by our framework for future research.
- Abstract(参考訳): 機械読取包括システム(MRC)におけるLLMの最近の応用は目覚ましい結果を示しているが、真のラベルと突発的に相関した特徴によって引き起こされるショートカットの使用は、その信頼性に対する潜在的な脅威として現れている。
そこで本研究では,LLM を編集者として,LLM を誤解を招くようなテキスト編集を指導する LLM と,編集したテキストに基づいて質問に回答する LLM の2つの角度から解析する。
サンプルにショートカットトリガーを追加するためのエディタをガイドするフレームワークを導入する。
GPT4をエディタとして使うと、LCMを騙すサンプルのトリガショートカットをうまく編集できる。
LLMを読者として分析することで、能力のあるLLMであってもショートカット知識で騙すことができる。
驚くべきことに、gpt4は自身の編集によって欺くことができる(f1では15%減少)。
手術をショートカットするLLMの脆弱性について検討した。
今後の研究のためにフレームワークが生成したキュレートデータセットであるShortcutQAを公開します。
関連論文リスト
- Aligning LLMs for FL-free Program Repair [14.935596175148586]
本稿では,大規模言語モデル (LLM) をプログラム修復に適用するための新しいアプローチについて検討する。
我々の中核的な洞察は、LLMのAPR能力は、単にトレーニング目標に出力を合わせるだけで大幅に改善できるということです。
この知見に基づいて、我々はAPRの直接的なプロンプトフレームワークであるD4Cを設計した。
論文 参考訳(メタデータ) (2024-04-13T02:36:40Z) - DELL: Generating Reactions and Explanations for LLM-Based Misinformation
Detection [53.83441731903509]
大規模な言語モデルは、事実性や幻覚の難しさによって制限され、ニュース記事の正確さを判断するために、棚外で直接使用される。
我々は,LLMをパイプラインの一部として組み込む誤情報検出の3つの重要な段階を同定するDellを提案する。
論文 参考訳(メタデータ) (2024-02-16T03:24:56Z) - Why and When LLM-Based Assistants Can Go Wrong: Investigating the
Effectiveness of Prompt-Based Interactions for Software Help-Seeking [5.755004576310333]
大規模言語モデル(LLM)アシスタントは、ユーザーがソフトウェアをナビゲートするための検索方法の潜在的な代替手段として登場した。
LLMアシスタントは、ドメイン固有のテキスト、ソフトウェアマニュアル、コードリポジトリからの膨大なトレーニングデータを使用して、人間のようなインタラクションを模倣する。
論文 参考訳(メタデータ) (2024-02-12T19:49:58Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - LLM4VV: Developing LLM-Driven Testsuite for Compiler Validation [7.979116939578324]
大規模言語モデル(LLM)は、自然言語を含む幅広いアプリケーションのための強力なツールである。
オープンソースLLM -- Meta Codellama、PhindによるCodellama、Deepseek Deepseek Coder、クローズソースLLM -- OpenAI GPT-3.5-Turbo、GPT-4-Turboなど、最先端のLLMの機能について検討する。
論文 参考訳(メタデータ) (2023-10-08T01:43:39Z) - LPML: LLM-Prompting Markup Language for Mathematical Reasoning [8.995617701116142]
外部ツール(Python REPL)とChain-of-Thought(CoT)メソッドを統合する新しいフレームワークを提案する。
提案手法は,ゼロショットプロンプトのみを用いて,LLMがマークアップ言語を記述し,高度な数学的推論を行うことを可能にする。
論文 参考訳(メタデータ) (2023-09-21T02:46:20Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。