論文の概要: Invasive Context Engineering to Control Large Language Models
- arxiv url: http://arxiv.org/abs/2512.03001v1
- Date: Tue, 02 Dec 2025 18:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.003135
- Title: Invasive Context Engineering to Control Large Language Models
- Title(参考訳): 大規模言語モデル制御のための侵入文脈工学
- Authors: Thomas Rivasseau,
- Abstract要約: 侵入コンテキストエンジニアリング(Invasive Context Engineering)は、長期の状況に対するトレーニングモデルで発生するデータ不足の落とし穴を回避する。
我々は,この手法をチェミング防止のためにChain-of-Thoughtプロセスに一般化できることを示唆した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current research on operator control of Large Language Models improves model robustness against adversarial attacks and misbehavior by training on preference examples, prompting, and input/output filtering. Despite good results, LLMs remain susceptible to abuse, and jailbreak probability increases with context length. There is a need for robust LLM security guarantees in long-context situations. We propose control sentences inserted into the LLM context as invasive context engineering to partially solve the problem. We suggest this technique can be generalized to the Chain-of-Thought process to prevent scheming. Invasive Context Engineering does not rely on LLM training, avoiding data shortage pitfalls which arise in training models for long context situations.
- Abstract(参考訳): 大規模言語モデルの演算子制御に関する最近の研究は、好みの例、プロンプト、入出力フィルタリングのトレーニングにより、敵攻撃や誤動作に対するモデル堅牢性を改善する。
良い結果にもかかわらず、LSMは乱用の影響を受けやすいままであり、ジェイルブレイク確率は文脈の長さとともに増加する。
長期の状況下では、堅牢なLLMセキュリティ保証が必要である。
本稿では,LLMコンテキストに挿入された制御文を侵略的文脈工学として提案し,その問題を部分的に解決する。
我々は,この手法をチェミング防止のためにChain-of-Thoughtプロセスに一般化できることを示唆した。
侵略的コンテキストエンジニアリングはLLMトレーニングに頼らず、長いコンテキストのトレーニングモデルで発生するデータ不足の落とし穴を避ける。
関連論文リスト
- Helping Large Language Models Protect Themselves: An Enhanced Filtering and Summarization System [2.0257616108612373]
大規模言語モデルは、敵の攻撃、操作プロンプト、悪意のある入力のエンコードに弱い。
本研究は,LSMが敵対的あるいは悪意的な入力を自力で認識し,フィルタリングし,防御することのできる,ユニークな防御パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-02T14:42:26Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Large Language Diffusion Models [93.26422905620008]
大規模言語モデル(LLM)は自己回帰モデル(ARM)に依存していると考えられている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
一般的なタスクや数学、コードなどに関する広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインと互換性のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - A Framework for Real-time Safeguarding the Text Generation of Large Language Model [12.683042228674694]
大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)タスクを持っているが、有害なコンテンツを生成するための適合性のために倫理的・社会的リスクを生じさせる。
LLMSafeGuardは,外部バリデータをデコードに統合し,非安全な出力を拒否し,有効な出力を許容する軽量リアルタイムフレームワークである。
論文 参考訳(メタデータ) (2024-04-29T18:40:01Z) - The Language Barrier: Dissecting Safety Challenges of LLMs in
Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。
我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文 参考訳(メタデータ) (2024-01-23T23:12:09Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。