論文の概要: ContextBench: Modifying Contexts for Targeted Latent Activation
- arxiv url: http://arxiv.org/abs/2506.15735v1
- Date: Sun, 15 Jun 2025 16:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.745642
- Title: ContextBench: Modifying Contexts for Targeted Latent Activation
- Title(参考訳): ContextBench: ターゲットの遅延アクティベーションのためのコンテキスト変更
- Authors: Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac Bloom,
- Abstract要約: 本研究では,特定の潜在的特徴を活性化する対象的,言語的に流用する入力を生成できる手法や,モデル動作を誘発する手法について検討する。
このアプローチをコンテキスト修正として形式化し、コアメソッドの機能と潜在的な安全性アプリケーションを評価するタスクを備えたベンチマークであるContextBenchを提示します。
- 参考スコア(独自算出の注目度): 37.69303106863453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying inputs that trigger specific behaviours or latent features in language models could have a wide range of safety use cases. We investigate a class of methods capable of generating targeted, linguistically fluent inputs that activate specific latent features or elicit model behaviours. We formalise this approach as context modification and present ContextBench -- a benchmark with tasks assessing core method capabilities and potential safety applications. Our evaluation framework measures both elicitation strength (activation of latent features or behaviours) and linguistic fluency, highlighting how current state-of-the-art methods struggle to balance these objectives. We enhance Evolutionary Prompt Optimisation (EPO) with LLM-assistance and diffusion model inpainting, and demonstrate that these variants achieve state-of-the-art performance in balancing elicitation effectiveness and fluency.
- Abstract(参考訳): 言語モデルで特定の振る舞いや潜在機能をトリガーする入力を識別することは、幅広い安全ユースケースを持つ可能性がある。
本研究では,特定の潜在的特徴を活性化する対象的,言語的に流用する入力を生成できる手法や,モデル動作を誘発する手法について検討する。
このアプローチをコンテキスト修正として形式化し、コアメソッドの機能と潜在的な安全性アプリケーションを評価するタスクを備えたベンチマークであるContextBenchを提示します。
我々の評価枠組みは, 適応力(潜在特徴や行動の活性化)と言語流布を両立させ, 現状の手法がこれらの目的のバランスをとるのにいかに苦労しているかを明らかにする。
LLM-assistance and diffusion model inpaintingによりEPO(Evolutionary Prompt Optimisation)を向上し,これらの変種が適用効率と流速のバランスをとる上で,最先端のパフォーマンスを達成できることを実証した。
関連論文リスト
- Test-Time Adaptation for Generalizable Task Progress Estimation [54.938128496934695]
専門的な視覚的軌跡とその自然言語タスク記述に基づいてモデルを訓練するための勾配に基づくメタラーニング戦略を導入する。
テスト時間適応法は, 単一学習環境から多様なアウト・オブ・ディストリビューションタスク, 環境, 実施形態へ一般化する。
論文 参考訳(メタデータ) (2025-06-11T18:05:33Z) - Soft Prompts for Evaluation: Measuring Conditional Distance of Capabilities [0.0]
本稿では,モデルと対象行動との条件距離の指標として,最適化された入力埋め込み,すなわち「ソフトプロンプト」を用いたアプローチを提案する。
ソフトプロンプトを用いた評価フレームワークは、自然言語、チェス、パスフィンディングで実証される。
論文 参考訳(メタデータ) (2025-05-20T22:02:53Z) - Improving Adversarial Robustness via Feature Pattern Consistency Constraint [42.50500608175905]
畳み込みニューラルネットワーク(CNN)は、敵の攻撃に対する脆弱性で知られており、重大なセキュリティ上の懸念を呈している。
既存のほとんどの方法は、敵の摂動から学ぶことに集中し、敵の例に過度に適合させるか、推論中にそのような摂動を取り除くことを目指している。
本稿では,特徴パターンの正しい維持能力を高めるために,新規かつ効果的な特徴パターン一貫性制約(FPCC)手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T05:38:30Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Dirichlet Active Learning [1.4277428617774877]
Dirichlet Active Learning(ダイリクレアクティブラーニング、DiAL)は、ベイズに触発されたアクティブラーニングアルゴリズムの設計手法である。
我々のフレームワークはディリクレ確率場として特徴条件クラス確率をモデル化する。
論文 参考訳(メタデータ) (2023-11-09T16:39:02Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z) - Uncertainty Quantification for Deep Context-Aware Mobile Activity
Recognition and Unknown Context Discovery [85.36948722680822]
我々はα-βネットワークと呼ばれる深層モデルのコンテキスト認識混合を開発する。
高レベルの文脈を識別することで、精度とFスコアを10%向上させる。
トレーニングの安定性を確保するために、公開データセットと社内データセットの両方でクラスタリングベースの事前トレーニングを使用しました。
論文 参考訳(メタデータ) (2020-03-03T19:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。