Fugu-MT 論文翻訳(概要): DPP-Based Adversarial Prompt Searching for Lanugage Models

論文の概要: DPP-Based Adversarial Prompt Searching for Lanugage Models

arxiv url: http://arxiv.org/abs/2403.00292v1
Date: Fri, 1 Mar 2024 05:28:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 18:06:07.981159
Title: DPP-Based Adversarial Prompt Searching for Lanugage Models
Title（参考訳）: DPPに基づくラウンジモデルの逆数プロンプト探索
Authors: Xu Zhang and Xiaojun Wan
Abstract要約: Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。 6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
参考スコア（独自算出の注目度）: 56.73828162194457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models risk generating mindless and offensive content, which hinders their safe deployment. Therefore, it is crucial to discover and modify potential toxic outputs of pre-trained language models before deployment. In this work, we elicit toxic content by automatically searching for a prompt that directs pre-trained language models towards the generation of a specific target output. The problem is challenging due to the discrete nature of textual data and the considerable computational resources required for a single forward pass of the language model. To combat these challenges, we introduce Auto-regressive Selective Replacement Ascent (ASRA), a discrete optimization algorithm that selects prompts based on both quality and similarity with determinantal point process (DPP). Experimental results on six different pre-trained language models demonstrate the efficacy of ASRA for eliciting toxic content. Furthermore, our analysis reveals a strong correlation between the success rate of ASRA attacks and the perplexity of target outputs, while indicating limited association with the quantity of model parameters.
Abstract（参考訳）: 言語モデルは、マインドレスで攻撃的なコンテンツを生成するリスクがあり、安全なデプロイメントを妨げる。したがって、事前訓練された言語モデルの潜在的有害な出力を発見し、修正することが重要である。本研究では,事前学習した言語モデルから特定の目標出力を生成するプロンプトを自動検索することで有害コンテンツを抽出する。この問題は、テキストデータの離散的な性質と、言語モデルの1つの前方通過に必要なかなりの計算資源のためである。これらの課題に対処するために,DPP(Determinantal Point Process)と品質および類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムであるAuto-Regressive Selective Replacement Ascent(ASRA)を導入する。 6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。さらに,ASRA攻撃の成功率と目標出力の難易度との間には強い相関関係がみられ,モデルパラメータの量と限られた相関関係を示す。

関連論文リスト

Breaking the Gold Standard: Extracting Forgotten Data under Exact Unlearning in Large Language Models [26.5039481643457]
我々は、さらに正確な未学習を損なう新しいデータ抽出攻撃を導入する。模擬診断データセット上での攻撃の有効性を実証する。
論文参考訳（メタデータ） (2025-05-30T09:09:33Z)
Language-Agnostic Suicidal Risk Detection Using Large Language Models [9.90722058486037]
本研究では,大規模言語モデル(LLM)を用いた自殺リスク評価のための新しい言語非依存フレームワークを提案する。 ASRモデルを用いて音声から中国語の書き起こしを生成し、その後、これらの書き起こしから自殺リスクに関連する特徴を抽出するために、プロンプトベースのクエリを用いたLLMを用いる。実験結果から,ASRによる直接微調整や,中国の自殺リスク関連機能のみを訓練したモデルに比較して,本手法の有効性が示唆された。
論文参考訳（メタデータ） (2025-05-26T15:12:10Z)
Towards Robust Dialogue Breakdown Detection: Addressing Disruptors in Large Language Models with Self-Guided Reasoning [30.13634341221476]
大規模言語モデル(LLM)は、様々なドメインを急速に変更している。本稿では,LLM駆動システムにおける対話分解の検出と緩和の課題について論じる。本稿では,特殊微調整と高度なプロンプト戦略を組み合わせたアプローチを提案する。
論文参考訳（メタデータ） (2025-04-26T07:51:05Z)
Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文参考訳（メタデータ） (2025-03-21T17:59:55Z)
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation [1.2576388595811496]
本稿では,モデル性能推定における暗記の影響を低減する言語推論問題を生成するための枠組みを提案する。このフレームワークを言語推論のための挑戦的なベンチマークであるlingOLY-TOOの開発に適用する。
論文参考訳（メタデータ） (2025-03-04T19:57:47Z)
A linguistic analysis of undesirable outcomes in the era of generative AI [4.841442157674423]
本稿では,LLama2のチャットバージョンを基盤として,生成されたコンテンツの言語的側面に着目した総合シミュレーションフレームワークを提案する。以上の結果から,このモデルでは世代ごとの語彙的リッチコンテンツの生成が減少し,多様性が低下することが示唆された。オートファジーは、最初のモデルをより創造的で疑わしい、混乱したものに変換し、不正確な答えをもたらす可能性がある。
論文参考訳（メタデータ） (2024-10-16T08:02:48Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
Enhancing adversarial robustness in Natural Language Inference using explanations [41.46494686136601]
自然言語推論(NLI)の未探索課題に注目点を当てた。我々は、広範囲な実験を通じて、モデルに依存しない防衛戦略として、自然言語説明の使用を検証した。本研究では,広範に使用されている言語生成指標と人間の知覚との相関について検討し,それらが堅牢なNLIモデルへのプロキシとして機能するようにした。
論文参考訳（メタデータ） (2024-09-11T17:09:49Z)
Selective Forgetting: Advancing Machine Unlearning Techniques and Evaluation in Language Models [24.784439330058095]
本研究では,個人や機密データを不注意に保持するニューラルモデルに関する懸念について検討する。言語モデル内で、正確かつ選択的に忘れることを実現するために、新しいアプローチが導入された。 S-EL(Sensitive Information extract Likelihood)とS-MA(Sensitive Information Memory Accuracy)の2つの革新的な評価指標が提案されている。
論文参考訳（メタデータ） (2024-02-08T16:50:01Z)
Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models [21.341749351654453]
大規模言語モデル(LLM)による有害なコンテンツの生成は、言語技術の安全なデプロイにおいて重要な課題である。プロトタイプに基づくコントラッシブ・パープレキシティを目標とした微調整 LLM による暗黙的知識編集とテキスト生成のための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-16T16:49:39Z)
A Generative Adversarial Attack for Multilingual Text Classifiers [10.993289209465129]
そこで本稿では,多言語パラフレーズモデルに逆方向の目的を付与する手法を提案する。トレーニングの目的は、テキストの品質と言語の一貫性を保証するために、事前訓練されたモデルのセットを含む。 2つの多言語データセットと5つの言語に対する実験的な検証により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-01-16T10:14:27Z)
AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks against Interpretable Models [1.8752655643513647]
XAIツールは、モデル抽出攻撃の脆弱性を増大させる可能性がある。そこで本研究では,ブラックボックス設定下での解釈可能なモデルに対して,新たなリトレーニング(学習)に基づくモデル抽出攻撃フレームワークを提案する。 AUTOLYCUSは非常に効果的で、最先端の攻撃に比べてクエリが大幅に少ないことが示される。
論文参考訳（メタデータ） (2023-02-04T13:23:39Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文参考訳（メタデータ） (2022-01-20T15:44:37Z)
NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文参考訳（メタデータ） (2021-08-29T06:58:28Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。