論文の概要: Guiding LLM to Fool Itself: Automatically Manipulating Machine Reading
Comprehension Shortcut Triggers
- arxiv url: http://arxiv.org/abs/2310.18360v1
- Date: Tue, 24 Oct 2023 12:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-05 13:38:27.121040
- Title: Guiding LLM to Fool Itself: Automatically Manipulating Machine Reading
Comprehension Shortcut Triggers
- Title(参考訳): 自力でLPMを誘導する: 機械の読み出しを自動で操作するショートカットトリガー
- Authors: Mosh Levy, Shauli Ravfogel, Yoav Goldberg
- Abstract要約: 真のラベルに急激な相関関係を持つ機能によって引き起こされるショートカットは、機械読み取り(MRC)システムに対する潜在的な脅威として現れている。
サンプルにショートカットトリガーを追加するためのエディタをガイドするフレームワークを導入します。
GPT4をエディタとして使うと、LCMを騙すサンプルのトリガショートカットをうまく編集できる。
- 参考スコア(独自算出の注目度): 76.77077447576679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent applications of LLMs in Machine Reading Comprehension (MRC) systems
have shown impressive results, but the use of shortcuts, mechanisms triggered
by features spuriously correlated to the true label, has emerged as a potential
threat to their reliability. We analyze the problem from two angles: LLMs as
editors, guided to edit text to mislead LLMs; and LLMs as readers, who answer
questions based on the edited text. We introduce a framework that guides an
editor to add potential shortcuts-triggers to samples. Using GPT4 as the
editor, we find it can successfully edit trigger shortcut in samples that fool
LLMs. Analysing LLMs as readers, we observe that even capable LLMs can be
deceived using shortcut knowledge. Strikingly, we discover that GPT4 can be
deceived by its own edits (15% drop in F1). Our findings highlight inherent
vulnerabilities of LLMs to shortcut manipulations. We publish ShortcutQA, a
curated dataset generated by our framework for future research.
- Abstract(参考訳): 機械読取包括システム(MRC)におけるLLMの最近の応用は目覚ましい結果を示しているが、真のラベルと突発的に相関した特徴によって引き起こされるショートカットの使用は、その信頼性に対する潜在的な脅威として現れている。
そこで本研究では,LLM を編集者として,LLM を誤解を招くようなテキスト編集を指導する LLM と,編集したテキストに基づいて質問に回答する LLM の2つの角度から解析する。
サンプルにショートカットトリガーを追加するためのエディタをガイドするフレームワークを導入する。
GPT4をエディタとして使うと、LCMを騙すサンプルのトリガショートカットをうまく編集できる。
LLMを読者として分析することで、能力のあるLLMであってもショートカット知識で騙すことができる。
驚くべきことに、gpt4は自身の編集によって欺くことができる(f1では15%減少)。
手術をショートカットするLLMの脆弱性について検討した。
今後の研究のためにフレームワークが生成したキュレートデータセットであるShortcutQAを公開します。
関連論文リスト
- Do LLMs Overcome Shortcut Learning? An Evaluation of Shortcut Challenges in Large Language Models [9.854718405054589]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示している。
本稿では,LLMの性能に及ぼすショートカットの影響を評価するためのテストスイートであるShortcut Suiteを提案する。
論文 参考訳(メタデータ) (2024-10-17T08:52:52Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文 参考訳(メタデータ) (2024-06-04T16:49:06Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - MEIC: Re-thinking RTL Debug Automation using LLMs [18.964523115622928]
本研究は,新しいフレームワーク,Make each Iteration Count(MEIC)を紹介する。
MEICは、構文と関数のエラーを識別し、修正するのに適している。
フレームワークを評価するため、178の共通RTLプログラミングエラーからなるオープンソースデータセットを提供する。
論文 参考訳(メタデータ) (2024-05-10T22:32:39Z) - DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection [50.805599761583444]
大規模な言語モデルは、事実性や幻覚の難しさによって制限され、ニュース記事の正確さを判断するために、棚外で直接使用される。
我々は,LLMをパイプラインの一部として組み込む誤情報検出の3つの重要な段階を同定するDellを提案する。
論文 参考訳(メタデータ) (2024-02-16T03:24:56Z) - Why and When LLM-Based Assistants Can Go Wrong: Investigating the
Effectiveness of Prompt-Based Interactions for Software Help-Seeking [5.755004576310333]
大規模言語モデル(LLM)アシスタントは、ユーザーがソフトウェアをナビゲートするための検索方法の潜在的な代替手段として登場した。
LLMアシスタントは、ドメイン固有のテキスト、ソフトウェアマニュアル、コードリポジトリからの膨大なトレーニングデータを使用して、人間のようなインタラクションを模倣する。
論文 参考訳(メタデータ) (2024-02-12T19:49:58Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - Open-Source LLMs for Text Annotation: A Practical Guide for Model Setting and Fine-Tuning [5.822010906632045]
本稿では、政治科学研究に典型的なテキスト分類タスクにおけるオープンソースのLarge Language Models(LLM)の性能について検討する。
姿勢・話題・関連分類などの課題を調べることで,テキスト分析におけるLLMの使用に関する情報的判断を学者に指導することを目指す。
論文 参考訳(メタデータ) (2023-07-05T10:15:07Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。