論文の概要: Can We Reverse In-Context Knowledge Edits?
- arxiv url: http://arxiv.org/abs/2410.12586v1
- Date: Wed, 16 Oct 2024 14:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:38.402898
- Title: Can We Reverse In-Context Knowledge Edits?
- Title(参考訳): 文脈内知識編集は可能か?
- Authors: Paul Youssef, Zhixue Zhao, Jörg Schlötterer, Christin Seifert,
- Abstract要約: In-context knowledge editing (IKE) は、パラメータの変更なしに、かつゼロコストで、大規模言語モデル(LLM)出力の効率的な修正を可能にする。
誤った情報や攻撃的な内容の挿入など、不適切な応答を操作するために誤用することができる。
特別に調整された逆転トークンを用いたIKE-editsの逆転タスクについて紹介する。
- 参考スコア(独自算出の注目度): 5.260519479124422
- License:
- Abstract: In-context knowledge editing (IKE) enables efficient modification of large language model (LLM) outputs without parameter changes and at zero-cost. However, it can be misused to manipulate responses opaquely, e.g., insert misinformation or offensive content. Such malicious interventions could be incorporated into high-level wrapped APIs where the final input prompt is not shown to end-users. To address this issue, we investigate the detection and reversal of IKE-edits. First, we demonstrate that IKE-edits can be detected with high accuracy (F1 > 80\%) using only the top-10 output probabilities of the next token, even in a black-box setting, e.g. proprietary LLMs with limited output information. Further, we introduce the novel task of reversing IKE-edits using specially tuned reversal tokens. We explore using both continuous and discrete reversal tokens, achieving over 80\% accuracy in recovering original, unedited outputs across multiple LLMs. Our continuous reversal tokens prove particularly effective, with minimal impact on unedited prompts. Through analysis of output distributions, attention patterns, and token rankings, we provide insights into IKE's effects on LLMs and how reversal tokens mitigate them. This work represents a significant step towards enhancing LLM resilience against potential misuse of in-context editing, improving their transparency and trustworthiness.
- Abstract(参考訳): In-context knowledge editing (IKE) は、パラメータの変更なしに、かつゼロコストで、大規模言語モデル(LLM)出力の効率的な修正を可能にする。
しかし、誤った情報や攻撃的な内容の挿入など、不透明な応答を操作するために誤用することもできる。
このような悪意のある介入は、エンドユーザーには最終的な入力プロンプトが示されない高レベルのラップAPIに組み込むことができる。
そこで本研究では,IKE-editsの検出と逆転について検討する。
まず、ブラックボックス設定であっても、次のトークンの上位10個の出力確率だけを用いて、IKE-editsを高精度(F1 > 80 %)で検出できることを実証する。
さらに, 特別に調整された逆トークンを用いて, IKE-editsを逆転させる新しいタスクを導入する。
連続的および離散的逆転トークンを用いて、複数のLLMにまたがる元の未編集出力を復元する精度を80%以上達成する。
我々の連続逆転トークンは、未処理のプロンプトに最小限の影響で、特に有効であることが証明されている。
出力分布,注意パターン,トークンランキングの分析を通じて,IKEのLCMへの影響と逆トークンの緩和効果について考察する。
この研究は、テキスト内編集の潜在的な誤用に対するLSMレジリエンスの強化、透明性と信頼性の向上に向けた重要なステップである。
関連論文リスト
- RAC: Efficient LLM Factuality Correction with Retrieval Augmentation [8.207682890286957]
大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて印象的な結果を示すが、しばしば事実的に誤った出力を生成することができる。
本稿では,簡単な低遅延後補正手法である textbfRetrieval Augmented Correction (RAC) を提案する。
論文 参考訳(メタデータ) (2024-10-21T06:11:38Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Learning to Rewrite: Generalized LLM-Generated Text Detection [19.9477991969521]
大規模言語モデル(LLM)は、非現実的なコンテンツを作成し、偽情報を拡散するために、大規模に悪用される。
入力テキストの書き直し,LLM生成コンテンツに対する最小限の編集,人文テキストに対するさらなる編集を行うためのLLMのトレーニングを提案する。
我々の研究は、LLMが適切に訓練された場合、機械生成テキストを効果的に検出できることを示唆している。
論文 参考訳(メタデータ) (2024-08-08T05:53:39Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.885866125783618]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。
我々は, LLMのトークン化に挑戦するために, $textbfADT (TokenizerのAdrial dataset)$という逆データセットを構築した。
GPT-4o, Llama-3, Qwen2.5-maxなど, 先進LLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-27T11:39:59Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact [46.32830393597601]
大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。
本稿では,LLMにおける従来見過ごされていた外れ値について紹介する。
IntactKVを提案することで、完全精度モデルからピボットトークンのKVキャッシュを損失なく生成する。
論文 参考訳(メタデータ) (2024-03-02T16:05:26Z) - Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM Responses [9.956253757863145]
本稿では,大規模言語モデル(LLM)生成応答を後編集するRe-Exを提案する。
Re-Exは、事実的エラー説明ステップと呼ばれる新しい推論ステップを導入した。
説明ステップに加えて、Re-Exは、応答修正プロセスに必要なトークン数と推論時間を短縮する新しいプロンプト技術も取り入れている。
論文 参考訳(メタデータ) (2024-02-27T00:22:18Z) - Feedback Loops With Language Models Drive In-Context Reward Hacking [78.9830398771605]
フィードバックループがコンテキスト内報酬ハッキング(ICRH)を引き起こす可能性があることを示す。
ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。
AI開発が加速するにつれて、フィードバックループの効果が増大する。
論文 参考訳(メタデータ) (2024-02-09T18:59:29Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。