論文の概要: LLM Reinforcement in Context
- arxiv url: http://arxiv.org/abs/2511.12782v1
- Date: Sun, 16 Nov 2025 21:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.536185
- Title: LLM Reinforcement in Context
- Title(参考訳): 文脈におけるLLM強化
- Authors: Thomas Rivasseau,
- Abstract要約: LLMジェイルブレイク確率は、ユーザ入力や会話の長さに応じて増加することが研究で示されている。
ユーザ入力長とともにスケールするアライメントを強化する方法に関して、適切な研究が欠如している。
この問題に対する解決策として割り込みを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Large Language Model alignment research mostly focuses on improving model robustness against adversarial attacks and misbehavior by training on examples and prompting. Research has shown that LLM jailbreak probability increases with the size of the user input or conversation length. There is a lack of appropriate research into means of strengthening alignment which also scale with user input length. We propose interruptions as a possible solution to this problem. Interruptions are control sentences added to the user input approximately every x tokens for some arbitrary x. We suggest that this can be generalized to the Chain-of-Thought process to prevent scheming.
- Abstract(参考訳): 現在の大規模言語モデルアライメント研究は、主に、サンプルとプロンプトのトレーニングによって、敵の攻撃や誤った行動に対するモデルの堅牢性を改善することに焦点を当てている。
LLMジェイルブレイク確率は、ユーザ入力や会話の長さに応じて増加することが研究で示されている。
ユーザ入力長とともにスケールするアライメントを強化する方法に関して、適切な研究が欠如している。
この問題に対する解決策として割り込みを提案する。
割り込み (interruptions) とは、任意の x に対して約すべての x トークンを入力に追加する制御文である。
我々は,この現象をチェミング防止のため,Chain-of-Thoughtプロセスに一般化できることを示唆している。
関連論文リスト
- Beyond Token Length: Step Pruner for Efficient and Accurate Reasoning in Large Language Models [26.88030285500965]
大きな推論モデル(LRM)は複雑なタスクにおいて強いパフォーマンスを示すが、しばしば過剰な冗長性に悩まされる。
コンパクトな推論ステップを好んで, LRM をより効率的に推論するための RL フレームワークである textbfStep Pruner (SP) を導入する。
我々のステップアウェア報酬関数は、冗長なステップに対して罰則を課しながら正当性を優先し、誤った推論の強化を防ぐための誤った応答に対する報酬を控える。
論文 参考訳(メタデータ) (2025-10-04T13:24:26Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z) - Conversational Complexity for Assessing Risk in Large Language Models [8.552688712751232]
大規模言語モデル(LLM)は、有害な可能性を秘めつつ、有益なアプリケーションを可能にする。
2023年、ジャーナリストのケビン・ルース(Kevin Roose)がLLMの検索エンジンであるBingと対話した。
LLMから有害な情報を引き出すには、どの程度の会話努力が必要か?
本稿では,会話長(CL)と会話複雑度(CC)の2つの尺度を提案する。
論文 参考訳(メタデータ) (2024-09-02T13:29:44Z) - Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers [29.554818890832887]
大規模言語モデル(LLM)は、長いコンテキスト長を処理し、テキストでニュアンスを理解する能力を獲得した。
本稿では,LDMのマルチターン機能と強力な学習能力を利用してエンドユーザを害する脆弱性を明らかにする。
本稿では, 応答列長を線形に拡張し, バックドアを0.35%まで小さくする復号時間ディフェンスを提案する。
論文 参考訳(メタデータ) (2024-07-04T20:57:06Z) - Preemptive Answer "Attacks" on Chain-of-Thought Reasoning [7.233752893356647]
大きな言語モデル(LLM)は、Chain-of-Thoughtプロンプトと組み合わせることで、印象的な推論機能を示す。
本稿では, LLMが推論に係わる前に解答を得る, プリエンプティブな解答という新しいシナリオを紹介する。
実験により、プリエンプティブな回答は、さまざまなCoTメソッドと幅広いデータセットにわたるモデルの推論能力を著しく損なうことが明らかになった。
論文 参考訳(メタデータ) (2024-05-31T15:15:04Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models [62.72318564072706]
Reinforcement Learning with Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるために設計された方法論である。
その利点にもかかわらず、RLHFはテキストのランク付けに人間のアノテーションに依存している。
そこで我々は,ある悪意ある行動に到達するために,候補の選好ランク選択に対する中毒攻撃手法であるRancPoisonを提案する。
論文 参考訳(メタデータ) (2023-11-16T07:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。