論文の概要: Jinx: Unlimited LLMs for Probing Alignment Failures
- arxiv url: http://arxiv.org/abs/2508.08243v1
- Date: Mon, 11 Aug 2025 17:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.252601
- Title: Jinx: Unlimited LLMs for Probing Alignment Failures
- Title(参考訳): Jinx: アライメントの失敗を調査するための無制限のLLM
- Authors: Jiahao Zhao, Liwei Dong,
- Abstract要約: アンリミテッド(unlimited, いわゆる有用な専用言語モデル)は、安全アライメントの制約なしにトレーニングされ、ユーザクエリを拒否することはない。
主要なAI企業によって、レッドチームやアライメント評価のための内部ツールとして広く使用されている。
我々は、人気のあるオープンウェイト LLM の有用な限定版である Jinx を紹介する。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlimited, or so-called helpful-only language models are trained without safety alignment constraints and never refuse user queries. They are widely used by leading AI companies as internal tools for red teaming and alignment evaluation. For example, if a safety-aligned model produces harmful outputs similar to an unlimited model, this indicates alignment failures that require further attention. Despite their essential role in assessing alignment, such models are not available to the research community. We introduce Jinx, a helpful-only variant of popular open-weight LLMs. Jinx responds to all queries without refusals or safety filtering, while preserving the base model's capabilities in reasoning and instruction following. It provides researchers with an accessible tool for probing alignment failures, evaluating safety boundaries, and systematically studying failure modes in language model safety.
- Abstract(参考訳): アンリミテッド(unlimited, いわゆる有用な専用言語モデル)は、安全アライメントの制約なしにトレーニングされ、ユーザクエリを拒否することはない。
主要なAI企業によって、レッドチームやアライメント評価のための内部ツールとして広く使用されている。
例えば、安全に整合したモデルが無制限のモデルと同様の有害な出力を生成する場合、これはさらなる注意を要するアライメントの失敗を示す。
アライメントの評価において重要な役割を担っているにもかかわらず、そのようなモデルは研究コミュニティでは利用できない。
我々は、人気のあるオープンウェイト LLM の有用な限定版である Jinx を紹介する。
Jinxは、リフレクションやセーフティフィルタリングなしですべてのクエリに応答し、ベースモデルの推論と命令の続く機能を保存する。
研究者は、アライメント障害の探索、安全性境界の評価、言語モデルの安全性における障害モードの体系的な研究などを行うための、アクセス可能なツールを提供する。
関連論文リスト
- Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check [32.82170313959032]
我々はAnswer-Then-Checkと呼ばれる新しい安全アライメント手法を導入する。
提案手法は,モデルが思考の質問に対して直接回答し,その安全性を批判的に評価することを可能にする。
わずか500のサンプルの小さなサブセットでのトレーニングは、完全なデータセットを使用するのに匹敵するパフォーマンスを達成できることに気付きました。
論文 参考訳(メタデータ) (2025-09-15T06:47:35Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。
ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。
プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。
この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats [22.843390303635655]
大規模言語モデルが意図的に回避しようとする場合でも,安全対策が有効かどうかを検討する。
マイクロプロトコールの選択には、適応マクロプロトコールを使用する2段階のデプロイメントフレームワークを使用する。
有効なレベルでは、適応的デプロイメント戦略は、非適応的ベースラインに比べて、バックドアの数を80%削減します。
論文 参考訳(メタデータ) (2024-11-26T18:58:20Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases [32.2246459413988]
Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
論文 参考訳(メタデータ) (2023-10-22T13:55:46Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - Open Sesame! Universal Black Box Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、有用で安全な応答を提供するように設計されている。
LLMは、しばしばユーザーの意図や社会的ガイドラインに合わせるためにアライメント技術に頼っている。
モデルアーキテクチャやパラメータがアクセスできない場合に,遺伝的アルゴリズム(GA)を用いてLLMを操作する手法を提案する。
論文 参考訳(メタデータ) (2023-09-04T08:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。