論文の概要: Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models
- arxiv url: http://arxiv.org/abs/2405.20234v3
- Date: Fri, 6 Sep 2024 02:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 20:13:58.228776
- Title: Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models
- Title(参考訳): 平らな視点に隠れた:対話型言語モデルにおけるチャット履歴タンパの探索
- Authors: Cheng'an Wei, Yue Zhao, Yujia Gong, Kai Chen, Lu Xiang, Shenchen Zhu,
- Abstract要約: 大規模言語モデル(LLM)は、実世界のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。
LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。
本稿では,目標モデルの事前知識を必要とせずに,LLM会話にユーザ提供履歴を注入するための体系的手法を提案する。
- 参考スコア(独自算出の注目度): 12.920884182101142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) such as ChatGPT and Llama have become prevalent in real-world applications, exhibiting impressive text generation performance. LLMs are fundamentally developed from a scenario where the input data remains static and unstructured. To behave interactively, LLM-based chat systems must integrate prior chat history as context into their inputs, following a pre-defined structure. However, LLMs cannot separate user inputs from context, enabling chat history tampering. This paper introduces a systematic methodology to inject user-supplied history into LLM conversations without any prior knowledge of the target model. The key is to utilize prompt templates that can well organize the messages to be injected, leading the target LLM to interpret them as genuine chat history. To automatically search for effective templates in a WebUI black-box setting, we propose the LLM-Guided Genetic Algorithm (LLMGA) that leverages an LLM to generate and iteratively optimize the templates. We apply the proposed method to popular real-world LLMs including ChatGPT and Llama-2/3. The results show that chat history tampering can enhance the malleability of the model's behavior over time and greatly influence the model output. For example, it can improve the success rate of disallowed response elicitation up to 97% on ChatGPT. Our findings provide insights into the challenges associated with the real-world deployment of interactive LLMs.
- Abstract(参考訳): ChatGPTやLlamaのような大規模言語モデル(LLM)は、現実のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。
LLMは、入力データが静的で構造化されていないシナリオから基本的に開発されている。
LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。
しかし、LLMはコンテキストからユーザ入力を分離することができず、チャット履歴の改ざんを可能にする。
本稿では,目標モデルの事前知識を必要とせずに,LLM会話にユーザ提供履歴を注入するための体系的手法を提案する。
鍵となるのは、メッセージの注入を適切に整理できるプロンプトテンプレートを利用することで、ターゲットのLLMを真のチャット履歴として解釈することが可能になる。
WebUIブラックボックス設定で有効なテンプレートを自動的に検索するために,LLMを利用してテンプレートを生成し,反復的に最適化するLLMGA(LLMGA)を提案する。
提案手法をChatGPT や Llama-2/3 などの実世界の LLM に適用する。
その結果, チャット履歴の改ざんにより, 時間の経過とともにモデル動作の適合性が向上し, モデル出力に大きな影響を及ぼすことが示された。
例えば、ChatGPTでは、無効な応答誘発の成功率を最大97%向上させることができる。
本研究は,対話型LDMの現実的展開に関わる課題について考察した。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - On Overcoming Miscalibrated Conversational Priors in LLM-based Chatbots [19.423566424346166]
本研究では,Large Language Model (LLM) ベースのチャットボットを用いて推薦システムを構築する。
チャットボットが不特定要求に遭うと、応答が悪くなるのを観察する。
我々は,このような誤った応答傾向は,アノテータを用いたLPM微調整に起因していると推測する。
論文 参考訳(メタデータ) (2024-06-01T15:54:45Z) - Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。
その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文 参考訳(メタデータ) (2024-02-11T13:41:17Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。