論文の概要: Jinx: Unlimited LLMs for Probing Alignment Failures
- arxiv url: http://arxiv.org/abs/2508.08243v1
- Date: Mon, 11 Aug 2025 17:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.252601
- Title: Jinx: Unlimited LLMs for Probing Alignment Failures
- Title(参考訳): Jinx: アライメントの失敗を調査するための無制限のLLM
- Authors: Jiahao Zhao, Liwei Dong,
- Abstract要約: アンリミテッド(unlimited, いわゆる有用な専用言語モデル)は、安全アライメントの制約なしにトレーニングされ、ユーザクエリを拒否することはない。
主要なAI企業によって、レッドチームやアライメント評価のための内部ツールとして広く使用されている。
我々は、人気のあるオープンウェイト LLM の有用な限定版である Jinx を紹介する。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlimited, or so-called helpful-only language models are trained without safety alignment constraints and never refuse user queries. They are widely used by leading AI companies as internal tools for red teaming and alignment evaluation. For example, if a safety-aligned model produces harmful outputs similar to an unlimited model, this indicates alignment failures that require further attention. Despite their essential role in assessing alignment, such models are not available to the research community. We introduce Jinx, a helpful-only variant of popular open-weight LLMs. Jinx responds to all queries without refusals or safety filtering, while preserving the base model's capabilities in reasoning and instruction following. It provides researchers with an accessible tool for probing alignment failures, evaluating safety boundaries, and systematically studying failure modes in language model safety.
- Abstract(参考訳): アンリミテッド(unlimited, いわゆる有用な専用言語モデル)は、安全アライメントの制約なしにトレーニングされ、ユーザクエリを拒否することはない。
主要なAI企業によって、レッドチームやアライメント評価のための内部ツールとして広く使用されている。
例えば、安全に整合したモデルが無制限のモデルと同様の有害な出力を生成する場合、これはさらなる注意を要するアライメントの失敗を示す。
アライメントの評価において重要な役割を担っているにもかかわらず、そのようなモデルは研究コミュニティでは利用できない。
我々は、人気のあるオープンウェイト LLM の有用な限定版である Jinx を紹介する。
Jinxは、リフレクションやセーフティフィルタリングなしですべてのクエリに応答し、ベースモデルの推論と命令の続く機能を保存する。
研究者は、アライメント障害の探索、安全性境界の評価、言語モデルの安全性における障害モードの体系的な研究などを行うための、アクセス可能なツールを提供する。
関連論文リスト
- Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。
ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。
プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。
この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats [22.843390303635655]
大規模言語モデルが意図的に回避しようとする場合でも,安全対策が有効かどうかを検討する。
マイクロプロトコールの選択には、適応マクロプロトコールを使用する2段階のデプロイメントフレームワークを使用する。
有効なレベルでは、適応的デプロイメント戦略は、非適応的ベースラインに比べて、バックドアの数を80%削減します。
論文 参考訳(メタデータ) (2024-11-26T18:58:20Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Open Sesame! Universal Black Box Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、有用で安全な応答を提供するように設計されている。
LLMは、しばしばユーザーの意図や社会的ガイドラインに合わせるためにアライメント技術に頼っている。
モデルアーキテクチャやパラメータがアクセスできない場合に,遺伝的アルゴリズム(GA)を用いてLLMを操作する手法を提案する。
論文 参考訳(メタデータ) (2023-09-04T08:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。