論文の概要: RepliBench: Evaluating the autonomous replication capabilities of language model agents
- arxiv url: http://arxiv.org/abs/2504.18565v1
- Date: Mon, 21 Apr 2025 11:39:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.875638
- Title: RepliBench: Evaluating the autonomous replication capabilities of language model agents
- Title(参考訳): RepliBench: 言語モデルエージェントの自律レプリケーション機能の評価
- Authors: Sid Black, Asa Cooper Stickland, Jake Pencharz, Oliver Sourbut, Michael Schmatz, Jay Bailey, Ollie Matthews, Ben Millwood, Alex Remedios, Alan Cooney,
- Abstract要約: RepliBenchは、自律レプリケーション機能を測定するために設計された評価スイートである。
我々は5つのフロンティアモデルをベンチマークし、それらが現在、自己複製の信頼できる脅威を生じていないことを発見した。
我々が評価した最良のモデル(Claude 3.7 Sonnet)は、15/20タスクファミリで50%パス@10スコア、最も難しい亜種で9/20ファミリーで50%パス@10スコアである。
- 参考スコア(独自算出の注目度): 2.058691706358809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncontrollable autonomous replication of language model agents poses a critical safety risk. To better understand this risk, we introduce RepliBench, a suite of evaluations designed to measure autonomous replication capabilities. RepliBench is derived from a decomposition of these capabilities covering four core domains: obtaining resources, exfiltrating model weights, replicating onto compute, and persisting on this compute for long periods. We create 20 novel task families consisting of 86 individual tasks. We benchmark 5 frontier models, and find they do not currently pose a credible threat of self-replication, but succeed on many components and are improving rapidly. Models can deploy instances from cloud compute providers, write self-propagating programs, and exfiltrate model weights under simple security setups, but struggle to pass KYC checks or set up robust and persistent agent deployments. Overall the best model we evaluated (Claude 3.7 Sonnet) has a >50% pass@10 score on 15/20 task families, and a >50% pass@10 score for 9/20 families on the hardest variants. These findings suggest autonomous replication capability could soon emerge with improvements in these remaining areas or with human assistance.
- Abstract(参考訳): 言語モデルエージェントの制御不能な自律複製は、重大な安全性のリスクをもたらす。
このリスクをよりよく理解するために、自律レプリケーション機能を測定するために設計された評価スイートであるRepliBenchを紹介します。
RepliBenchは、リソースの取得、モデルの重み付けのフィルタリング、計算への複製、この計算を長時間継続する4つのコアドメインをカバーするこれらの機能の分解から生まれたものだ。
86の個別タスクからなる20の新規タスクファミリーを作成します。
我々は5つのフロンティアモデルをベンチマークし、それらが現在、自己複製の信頼できる脅威を起こさないが、多くのコンポーネントで成功し、急速に改善していることを発見した。
モデルは、クラウドコンピューティングプロバイダからのインスタンスのデプロイ、セルフプロパゲーションプログラムの書き込み、シンプルなセキュリティ設定下でモデルの重み付けのフィルタリングが可能だが、KYCチェックをパスしたり、堅牢で永続的なエージェントデプロイメントの設定に苦労する。
全体として評価した最高のモデル(Claude 3.7 Sonnet)は15/20タスクファミリで50%パス@10スコア、最も難しい亜種で9/20ファミリーで50%パス@10スコアです。
これらの結果から、自律的な複製能力は、これらの残りの領域の改善や人的支援によってすぐに出現する可能性が示唆された。
関連論文リスト
- Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Building reliable sim driving agents by scaling self-play [3.3378669626639423]
1つのGPUでスクラッチからトレーニングすることで、エージェントは1日以内に完全なトレーニングセットを解決します。
彼らは効果的にテストシーンを見えないように一般化し、99.8%のゴール達成率と0.8%以下の衝突とオフロードインシデントを達成した。
我々は、事前訓練されたエージェントをオープンソース化し、バッチ化されたマルチエージェントシミュレータと統合する。
論文 参考訳(メタデータ) (2025-02-20T16:30:45Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Publishing Efficient On-device Models Increases Adversarial
Vulnerability [58.6975494957865]
本稿では,大規模モデルのオンデバイス版を公開する際のセキュリティ上の考慮事項について検討する。
まず、敵がデバイス上のモデルを悪用し、大きなモデルを攻撃しやすくすることを示す。
次に、フルスケールと効率的なモデルとの類似性が増加するにつれて、脆弱性が増加することを示す。
論文 参考訳(メタデータ) (2022-12-28T05:05:58Z) - Voting based ensemble improves robustness of defensive models [82.70303474487105]
我々は、より堅牢性を高めるためのアンサンブルを作ることができるかどうか研究する。
最先端の先制防衛モデルを複数組み合わせることで,59.8%の堅牢な精度を達成できる。
論文 参考訳(メタデータ) (2020-11-28T00:08:45Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。