論文の概要: Building Production-Ready Probes For Gemini
- arxiv url: http://arxiv.org/abs/2601.11516v2
- Date: Mon, 19 Jan 2026 16:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 18:45:13.568187
- Title: Building Production-Ready Probes For Gemini
- Title(参考訳): Geminiのためのプロダクション対応プローブの開発
- Authors: János Kramár, Joshua Engels, Zheng Wang, Bilal Chughtai, Rohin Shah, Neel Nanda, Arthur Conmy,
- Abstract要約: 従来のプローブアーキテクチャでは,短文から長文への変換は困難であることが判明した。
本稿では,この長文分布シフトを扱う新しいプローブアーキテクチャを提案する。
AlphaEvolveによる早期の肯定的な結果から,プローブアーキテクチャ検索と適応型レッドコラボレーションの両方の改善を自動化した。
- 参考スコア(独自算出の注目度): 21.610660065701243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier language model capabilities are improving rapidly. We thus need stronger mitigations against bad actors misusing increasingly powerful systems. Prior work has shown that activation probes may be a promising misuse mitigation technique, but we identify a key remaining challenge: probes fail to generalize under important production distribution shifts. In particular, we find that the shift from short-context to long-context inputs is difficult for existing probe architectures. We propose several new probe architectures that handle this long-context distribution shift. We evaluate these probes in the cyber-offensive domain, testing their robustness against various production-relevant distribution shifts, including multi-turn conversations, long context prompts, and adaptive red teaming. Our results demonstrate that while our novel architectures address context length, a combination of architecture choice and training on diverse distributions is required for broad generalization. Additionally, we show that pairing probes with prompted classifiers achieves optimal accuracy at a low cost due to the computational efficiency of probes. These findings have informed the successful deployment of misuse mitigation probes in user-facing instances of Gemini, Google's frontier language model. Finally, we find early positive results using AlphaEvolve to automate improvements in both probe architecture search and adaptive red teaming, showing that automating some AI safety research is already possible.
- Abstract(参考訳): 最前線の言語モデル能力は急速に向上している。
したがって、ますます強力なシステムを誤用する悪役に対するより強力な緩和が必要である。
以前の研究は、アクティベーションプローブは有望な誤用軽減手法であることを示しているが、重要な課題は、プローブが重要な生産分配シフトの下で一般化できないことである。
特に,従来のプローブアーキテクチャでは,短文から長文への変換が困難であることが判明した。
本稿では,この長文分布シフトを扱う新しいプローブアーキテクチャを提案する。
我々はこれらの調査をサイバー攻撃領域で評価し、多ターン会話、長いコンテキストプロンプト、適応的レッドチームなど、生産関連分布シフトに対する堅牢性を検証した。
我々の新しいアーキテクチャは文脈長に対処するが、多種多様な分布の学習とアーキテクチャの選択の組み合わせは、広範に一般化するために必要である。
さらに, 導出器を用いたペアリングプローブは, プローブの計算効率に起因して, 低コストで最適精度が得られることを示す。
これらの発見は、Googleのフロンティア言語モデルであるGeminiのユーザ向けインスタンスにおける誤用軽減プローブのデプロイの成功を知らせている。
最後に、AlphaEvolveを使った初期の肯定的な結果を見つけ、プローブアーキテクチャ検索とアダプティブレッドコラボレーションの両方の改善を自動化し、AI安全研究の自動化がすでに可能であることを示した。
関連論文リスト
- UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - A Self-Supervised Task for Fault Detection in Satellite Multivariate Time Series [45.31237646796715]
この研究は、複雑な分布と高次元分布をモデル化する能力で有名な物理インフォームドリアルNVPニューラルネットワークを活用する新しいアプローチを提案する。
実験には、セルフスーパービジョンによる事前トレーニング、マルチタスク学習、スタンドアロンのセルフ教師付きトレーニングなど、さまざまな構成が含まれている。
結果は、すべての設定で大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2024-07-03T07:19:41Z) - Beyond Two-Tower Matching: Learning Sparse Retrievable
Cross-Interactions for Recommendation [80.19762472699814]
2-towerモデルは、産業アプリケーションに広くデプロイされている推奨のための一般的なマッチングフレームワークである。
機能間相互作用の制限と、オンラインサービスにおける精度の低下など、主な課題が2つある。
我々は,高度な機能相互作用だけでなく,効率的な検索もサポートするSparCodeという新しいマッチングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-30T03:13:36Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Searching for the Fakes: Efficient Neural Architecture Search for
General Face Forgery Detection [4.19882227319634]
我々は、ディープフェイク検出のためのニューラルネットワーク探索(NAS)に基づくエンドツーエンドフレームワークを開発する。
本稿では,より一般的なモデルを選択するための探索プロセスを導く新しい性能推定指標を提案する。
人工的に設計した最先端ネットワークと比較して,本手法は,データベース内シナリオとデータセット間シナリオの両方において,競合性能を実現する。
論文 参考訳(メタデータ) (2023-06-15T03:01:13Z) - PreTR: Spatio-Temporal Non-Autoregressive Trajectory Prediction
Transformer [0.9786690381850356]
PRediction Transformer (PReTR) と呼ばれるモデルを導入し、時間分解型アテンションモジュールを用いてマルチエージェントシーンから特徴を抽出する。
これは、経験的により良い結果を持つ以前の研究されたモデルよりも計算上の必要性が低いことを示している。
我々は,学習対象クエリの集合を並列デコードするために,エンコーダ・デコーダ・トランスフォーマネットワークを利用する。
論文 参考訳(メタデータ) (2022-03-17T12:52:23Z) - Resource Allocation in Multi-armed Bandit Exploration: Overcoming
Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。
特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文 参考訳(メタデータ) (2020-10-31T18:19:29Z) - Recent Developments Combining Ensemble Smoother and Deep Generative
Networks for Facies History Matching [58.720142291102135]
本研究は、ファシズムモデルのための連続パラメータ化を構築するためのオートエンコーダネットワークの利用に焦点を当てる。
本稿では,VAE,GAN,Wasserstein GAN,変分自動符号化GAN,サイクルGANの主成分分析(PCA),転送スタイルネットワークのPCA,スタイル損失のVAEの7種類の定式化をベンチマークする。
論文 参考訳(メタデータ) (2020-05-08T21:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。