Fugu-MT 論文翻訳(概要): Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs

論文の概要: Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs

arxiv url: http://arxiv.org/abs/2404.00486v1
Date: Sat, 30 Mar 2024 22:41:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 03:30:20.092733
Title: Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs
Title（参考訳）: 図形アライメント:3Hの張力とLLMのセキュリティ脅威を解消する
Authors: Shu Yang, Jiayuan Su, Han Jiang, Mengdi Li, Keyuan Cheng, Muhammad Asif Ali, Lijie Hu, Di Wang,
Abstract要約: 既存のアライメント手法は、外部エビデンスとパラメトリックメモリが競合する場合、大きな言語モデル(LLM)をアダプティブ・シャメレオン(Adaptive Chameleon)に導くことができる。我々は、AIフィードバックを利用してLLMの最適戦略を特定し、コンテキスト間の競合をナビゲートする新しいフレームワーク、Dialectical Alignment(DA)を提案する。実験の結果,DAは有毒なデータ攻撃防御を20倍に改善し,追加のプロンプトエンジニアリングを必要としないことがわかった。
参考スコア（独自算出の注目度）: 9.624124576891075
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rise of large language models (LLMs), ensuring they embody the principles of being helpful, honest, and harmless (3H), known as Human Alignment, becomes crucial. While existing alignment methods like RLHF, DPO, etc., effectively fine-tune LLMs to match preferences in the preference dataset, they often lead LLMs to highly receptive human input and external evidence, even when this information is poisoned. This leads to a tendency for LLMs to be Adaptive Chameleons when external evidence conflicts with their parametric memory. This exacerbates the risk of LLM being attacked by external poisoned data, which poses a significant security risk to LLM system applications such as Retrieval-augmented generation (RAG). To address the challenge, we propose a novel framework: Dialectical Alignment (DA), which (1) utilizes AI feedback to identify optimal strategies for LLMs to navigate inter-context conflicts and context-memory conflicts with different external evidence in context window (i.e., different ratios of poisoned factual contexts); (2) constructs the SFT dataset as well as the preference dataset based on the AI feedback and strategies above; (3) uses the above datasets for LLM alignment to defense poisoned context attack while preserving the effectiveness of in-context knowledge editing. Our experiments show that the dialectical alignment model improves poisoned data attack defense by 20 and does not require any additional prompt engineering or prior declaration of ``you may be attacked`` to the LLMs' context window.
Abstract（参考訳）: 大型言語モデル(LLMs)の台頭により、人間アライメント(Human Alignment)として知られる、役に立つこと、正直であること、無害であること(3H)の原則が具現化されていく。 RLHFやDPOなどの既存のアライメント手法は、選好データセットの好みに合うように、効果的に微調整のLSMを配置するが、この情報に毒が注がれたとしても、LLMを高い受容力を持つ人間の入力と外部の証拠に導くことがしばしばある。これにより、LCMがアダプティブ・シャメレオンとなる傾向は、外部の証拠がパラメトリックメモリと矛盾する場合に生じる。これにより、LLMが外部の有毒データによって攻撃されるリスクが悪化し、Retrieval-augmented Generation (RAG)のようなLLMシステムアプリケーションに重大なセキュリティリスクが生じる。この課題に対処するために,1つの新しい枠組みを提案する: 対話的アライメント (DA) は,(1) LLMの最適戦略を識別するためにAIのフィードバックを利用して, コンテキストウィンドウ内の異なる外部証拠(例えば, 有毒な事実的文脈の比率)と, 異なる外部証拠をナビゲートする。(2) SFTデータセットと, 上記のAIのフィードバックと戦略に基づく嗜好データセットを構築する。実験の結果, 弁証的アライメントモデルでは有毒なデータ攻撃防御を20倍に改善し, 追加のプロンプトエンジニアリングや<you may be attack` の事前宣言を LLM のコンテキストウィンドウに必要としないことがわかった。

関連論文リスト

When Safety Becomes a Vulnerability: Exploiting LLM Alignment Homogeneity for Transferable Blocking in RAG [16.528679832019854]
TabooRAGは、厳格なブラックボックス設定の下で動作する、転送可能なブロッキング攻撃フレームワークである。我々は,TabooRAGが安定なクロスモデル転送性と最先端のブロッキング成功率を実現し,GPT-5.2で最大96%に達することを示す。
論文参考訳（メタデータ） (2026-03-04T10:27:09Z)
SAFENLIDB: A Privacy-Preserving Safety Alignment Framework for LLM-based Natural Language Database Interfaces [12.135290721799421]
NLIDBのための新しいプライバシセキュリティアライメントフレームワークであるtextscSafeNlidbを提案する。このフレームワークは、スクラッチからハイブリッドチェーンのインタラクションデータを生成する自動化パイプラインを備えている。提案手法は,大規模LCMと理想設定ベースラインより優れる。
論文参考訳（メタデータ） (2025-11-10T07:05:59Z)
From Insight to Exploit: Leveraging LLM Collaboration for Adaptive Adversarial Text Generation [3.75886080255807]
動的かつ適応的な敵の例を生成するために設計された2つの革新的な攻撃フレームワークを導入する。我々は、原文と意味的類似性を保持する微妙で自然な逆入力を生成する。我々の攻撃はLSMの進歩とともに進化し、攻撃者には未知の強い伝達性を示す。
論文参考訳（メタデータ） (2025-11-05T02:27:56Z)
From Threat to Tool: Leveraging Refusal-Aware Injection Attacks for Safety Alignment [4.379304291229695]
LLM攻撃技術を応用したトレーニングフリーでモデルに依存しないフレームワークであるRefusal-Aware Adaptive Injection (RAAI)を紹介する。 RAAIは内部の拒絶信号を検出し、事前に定義されたフレーズを適応的に注入することで、有害で流用な完了を誘導する。実験の結果,RAAIはLDMを効果的に脱獄させ,平均で2.15%から61.04%までの有害反応率を増加させた。
論文参考訳（メタデータ） (2025-06-07T08:19:01Z)
Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。 LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
SRMIR: Shadow Reward Models Based on Introspective Reasoning for LLM Alignment [0.0]
SRMIR(Shadow Reward Models Based on Introspective Reasoning)は、メンバーシップ推論攻撃におけるシャドーモデルにインスパイアされている。政策最適化のためのシャドウ報酬モデルを統合するために,線形結合と分類アプローチの2つの戦略を適用した。
論文参考訳（メタデータ） (2025-03-23T16:40:29Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文参考訳（メタデータ） (2024-12-05T18:38:30Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving [41.87011820577736]
本稿では、政治強化学習エージェントを学習するための新しいフレームワークであるRAPIDを紹介する。 LLMベースの運転エージェントで合成されたデータとオンライン適応を用いて、警察のRLエージェントを専門に訓練する。異なるタスクへの適応性を維持しながら、LLM知識の堅牢性を低減する。
論文参考訳（メタデータ） (2024-10-16T13:43:00Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
Mission Impossible: A Statistical Perspective on Jailbreaking LLMs [6.627477206883248]
大規模言語モデル(LLM)は、限られた品質制御を伴う大量のテキストデータに基づいて訓練される。プライオリティアライメント(英語版)と呼ばれる対策には、所望の振る舞いを注意深く記述したテキスト例で事前訓練されたLLMを微調整することが含まれる。本稿は、統計的観点から、嗜好調整と脱獄現象に関する理論的知見を提供する。
論文参考訳（メタデータ） (2024-08-02T17:55:50Z)
Course-Correction: Safety Alignment Using Synthetic Preferences [17.897817682322053]
定量的評価のためのtextscC$2$-Eval ベンチマークを導入し,10のポピュラー言語モデルを解析する。自動パイプラインを使用して、750Kペアの好みを持つ合成データセットであるtextscC$2$-Synを作成する。 2つのLLM, textscLlama2-Chat 7B と textscQwen2 7B の実験により, 一般性能に影響を与えることなく, 効果的にコース補正能力を向上させることができた。
論文参考訳（メタデータ） (2024-07-23T16:54:28Z)
Robustifying Safety-Aligned Large Language Models through Clean Data Curation [11.273749179260468]
大きな言語モデル(LLM)は、有害なコンテンツを含むデータセットでトレーニングされた場合、脆弱性がある。本稿では,両シナリオにおける敵対的影響に対処するためのデータキュレーションフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-24T04:50:38Z)
ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文参考訳（メタデータ） (2024-02-25T06:46:27Z)
RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models [62.72318564072706]
Reinforcement Learning with Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるために設計された方法論である。その利点にもかかわらず、RLHFはテキストのランク付けに人間のアノテーションに依存している。そこで我々は,ある悪意ある行動に到達するために,候補の選好ランク選択に対する中毒攻撃手法であるRancPoisonを提案する。
論文参考訳（メタデータ） (2023-11-16T07:48:45Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
Adaptive Chameleon or Stubborn Sloth: Revealing the Behavior of Large Language Models in Knowledge Conflicts [21.34852490049787]
本稿では,大規模言語モデル(LLM)の知識衝突時の行動に関する包括的かつ制御された最初の調査について述べる。 LLMは, パラメトリックメモリと矛盾しても, 外部の証拠に対して高い受容性を有することが判明した。一方、LCMは、外部証拠がパラメトリックメモリと整合した情報を含む場合、強い確証バイアスを示す。
論文参考訳（メタデータ） (2023-05-22T17:57:41Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。