論文の概要: An Investigation on Group Query Hallucination Attacks
- arxiv url: http://arxiv.org/abs/2508.19321v1
- Date: Tue, 26 Aug 2025 14:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.378737
- Title: An Investigation on Group Query Hallucination Attacks
- Title(参考訳): グループクエリ幻覚攻撃の検討
- Authors: Kehao Miao, Xiaolong Jin,
- Abstract要約: グループクエリアタック(Group Query Attack)は、大きな言語モデルとの単一の会話で複数の質問をシミュレートするテクニックである。
グループクエリアタックは、特定のタスクで微調整されたモデルの性能を著しく低下させることを示す。
数学的推論や、事前訓練されたモデルと整列したモデルのためのコード生成など、推論に関わるタスクにも有効である。
- 参考スコア(独自算出の注目度): 3.317635166634068
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the widespread use of large language models (LLMs), understanding their potential failure modes during user interactions is essential. In practice, users often pose multiple questions in a single conversation with LLMs. Therefore, in this study, we propose Group Query Attack, a technique that simulates this scenario by presenting groups of queries to LLMs simultaneously. We investigate how the accumulated context from consecutive prompts influences the outputs of LLMs. Specifically, we observe that Group Query Attack significantly degrades the performance of models fine-tuned on specific tasks. Moreover, we demonstrate that Group Query Attack induces a risk of triggering potential backdoors of LLMs. Besides, Group Query Attack is also effective in tasks involving reasoning, such as mathematical reasoning and code generation for pre-trained and aligned models.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及に伴い,ユーザインタラクションにおける潜在的な障害モードの理解が不可欠である。
実際には、ユーザーはLLMと1つの会話で複数の質問をすることが多い。
そこで本研究では,LLMにクエリ群を同時に提示することで,このシナリオをシミュレートするグループクエリアタックを提案する。
連続的なプロンプトから蓄積したコンテキストがLLMの出力に与える影響について検討する。
具体的には、グループクエリアタックが特定のタスクで微調整されたモデルの性能を著しく低下させるのを観察する。
さらに,グループクエリアタックはLLMの潜在的なバックドアをトリガーするリスクを生じさせることを示した。
さらに、グループクエリアタックは、数学的推論や事前訓練されたモデルとアライメントされたモデルのためのコード生成など、推論に関わるタスクにも有効である。
関連論文リスト
- Can We Infer Confidential Properties of Training Data from LLMs? [24.330349002990438]
大規模言語モデル(LLM)のプロパティ推論を評価するベンチマークタスクであるPropInferを紹介する。
ChatDoctorデータセット上に構築されたベンチマークには、さまざまなプロパティタイプとタスク設定が含まれています。
本稿では,単語周波数信号を利用したプロンプトベース生成攻撃とシャドウモデル攻撃の2つを提案する。
論文 参考訳(メタデータ) (2025-06-12T05:42:06Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Prompting Strategies for Enabling Large Language Models to Infer Causation from Correlation [68.58373854950294]
我々は因果推論に焦点をあて,相関情報に基づく因果関係の確立という課題に対処する。
この問題に対して,元のタスクを固定的なサブクエストに分割するプロンプト戦略を導入する。
既存の因果ベンチマークであるCorr2Causeに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-12-18T15:32:27Z) - LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation [24.103034843158717]
LLM-as-an-Interviewerは,大規模言語モデル(LLM)を評価するための新しいパラダイムである。
このアプローチはマルチターンインタラクションを活用し、インタビュアーは応答に対するフィードバックを積極的に提供し、評価されたLCMにフォローアップ質問を提示する。
このフレームワークを用いてMATHとDepthQAタスクの6つのモデルを評価する。
論文 参考訳(メタデータ) (2024-12-10T15:00:32Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Hijacking Large Language Models via Adversarial In-Context Learning [10.416972293173993]
In-context Learning (ICL) は、ラベル付き例を事前条件付きプロンプトのデモ(デム)として活用することで、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。
既存の攻撃は検出しやすく、ユーザーの入力にトリガーを必要とするか、ICLに対する特異性を欠いている。
本研究は、ILCに対する新規なトランスファー可能なプロンプトインジェクション攻撃を導入し、LSMをハイジャックしてターゲット出力を生成したり、有害な応答を誘発する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。