論文の概要: Abstractive Red-Teaming of Language Model Character
- arxiv url: http://arxiv.org/abs/2602.12318v1
- Date: Thu, 12 Feb 2026 18:12:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.715301
- Title: Abstractive Red-Teaming of Language Model Character
- Title(参考訳): 言語モデルキャラクタの抽象的再チーム化
- Authors: Nate Rahn, Allison Qi, Avery Griffin, Jonathan Michala, Henry Sleight, Erik Jones,
- Abstract要約: デプロイ時に文字違反を引き起こす可能性のあるクエリの種類を特定することを目的としている。
我々は、自然言語クエリカテゴリを検索する抽象的なレッドチームを導入する。
アルゴリズムはベースラインを一貫して上回り、質的に興味深いカテゴリを生成する。
- 参考スコア(独自算出の注目度): 7.337507616808622
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We want language model assistants to conform to a character specification, which asserts how the model should act across diverse user interactions. While models typically follow these character specifications, they can occasionally violate them in large-scale deployments. In this work, we aim to identify types of queries that are likely to produce such character violations at deployment, using much less than deployment-level compute. To do this, we introduce abstractive red-teaming, where we search for natural-language query categories, e.g. "The query is in Chinese. The query asks about family roles," that routinely elicit violations. These categories abstract over the many possible variants of a query which could appear in the wild. We introduce two algorithms for efficient category search against a character-trait-specific reward model: one based on reinforcement learning on a category generator LLM, and another which leverages a strong LLM to iteratively synthesize categories from high-scoring queries. Across a 12-principle character specification and 7 target models, we find that our algorithms consistently outperform baselines, and generate qualitatively interesting categories; for example, queries which ask Llama-3.1-8B-Instruct to predict the future lead to responses saying that AI will dominate humanity, and queries that ask GPT-4.1-Mini for essential prison survival items lead to enthusiastic recommendation of illegal weapons. Overall, we believe our results represent an important step towards realistic pre-deployment auditing of language model character.
- Abstract(参考訳): 言語モデルアシスタントは、さまざまなユーザインタラクションにわたってモデルがどのように振る舞うべきかを主張する、文字仕様に準拠したいと考えています。
モデルは通常これらのキャラクタ仕様に従うが、大規模なデプロイメントでは時々それらに違反することがある。
本研究では,デプロイ時にそのような文字違反を引き起こす可能性のあるクエリの種類を,デプロイメントレベルの計算よりもはるかに少ない方法で同定することを目的とする。
これを実現するために、自然言語クエリカテゴリを検索する抽象的なレッドチームを導入します。例えば、"クエリは中国語です。クエリは家族の役割について尋ねます"など、規則的に違反を誘発します。
これらのカテゴリは、荒野に現れる可能性のあるクエリの可能な多くのバリエーションを抽象化する。
提案手法は,カテゴリ生成器の強化学習に基づく評価モデルと,高いスコア付けクエリからカテゴリを反復的に合成するために,強力なLCMを利用する2つのアルゴリズムを提案する。
例えば、Llama-3.1-8B-Instruct to ask asked that AI will beminate human, and query who ask GPT-4.1-Mini for essential prison survival items(GPT-4.1-Mini for essential prison survival items)は、違法武器の熱心な推奨に繋がる。
全体として,本研究の結果は,言語モデルキャラクタの現実的な事前評価に向けた重要な一歩であると信じている。
関連論文リスト
- Are Prompts All You Need? Evaluating Prompt-Based Large Language Models (LLM)s for Software Requirements Classification [1.1458853556386799]
本研究は,プロンプトベースの大規模言語モデルがデータニーズを低減できるかどうかを検証する。
PMISEとSecReqという2つの英語データセット上で、複数のタスクにまたがる複数のモデルとスタイルをベンチマークする。
論文 参考訳(メタデータ) (2025-09-17T09:58:26Z) - Reducing the Scope of Language Models [7.464494269745494]
言語モデルのスコープ化が可能であることを示す。
我々は無関係なクエリの多様性、レイヤの異なるテクニック、敵対的な評価を行う。
我々は,言語モデルをスコーピングする実践者のガイドとして,本研究を行おうとしている。
論文 参考訳(メタデータ) (2024-10-28T23:06:57Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Analyzing the Role of Semantic Representations in the Era of Large Language Models [104.18157036880287]
大規模言語モデル(LLM)の時代における意味表現の役割について検討する。
本稿では, AMRCoT と呼ばれる AMR-driven chain-of- Thought prompting 法を提案する。
AMRのどの入力例が役に立つかは予測できないが,複数単語の表現でエラーが発生する傾向にある。
論文 参考訳(メタデータ) (2024-05-02T17:32:59Z) - BYOC: Personalized Few-Shot Classification with Co-Authored Class
Descriptions [2.076173115539025]
LLMを用いた少数ショットテキスト分類のための新しい手法を提案する。
わずかな例ではなく、LLMは各クラスの健全な特徴を記述して誘導される。
例、質問、回答は、分類プロンプトを形成するために要約される。
論文 参考訳(メタデータ) (2023-10-09T19:37:38Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - GPT4Rec: A Generative Framework for Personalized Recommendation and User
Interests Interpretation [8.293646972329581]
GPT4Recは、検索エンジンにインスパイアされた、新しく柔軟な生成フレームワークである。
まず、ユーザの履歴にある項目のタイトルに関する仮説的な"検索クエリ"を生成し、これらのクエリを検索することで推奨項目を検索する。
我々のフレームワークは、2つの公開データセット上のRecall@Kにおいて、最先端のメソッドを75.7%と22.2%でパフォーマンスします。
論文 参考訳(メタデータ) (2023-04-08T00:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。