論文の概要: SOCK: A Benchmark for Measuring Self-Replication in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.25643v1
- Date: Tue, 30 Sep 2025 01:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.973516
- Title: SOCK: A Benchmark for Measuring Self-Replication in Large Language Models
- Title(参考訳): SOCK: 大規模言語モデルにおける自己複製のベンチマーク
- Authors: Justin Chavarria, Rohan Raizada, Justin White, Eyad Alhetairshi,
- Abstract要約: SOCKは、人間の介入なしに自己複製する大規模言語モデル(LLM)の能力を測定するベンチマークである。
我々は,広い自己複製能力に基づいてLSMを分類するシステムを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SOCK, a benchmark command line interface (CLI) that measures large language models' (LLMs) ability to self-replicate without human intervention. In this benchmark, self-replication is defined not only as an LLM's ability to create a functioning and running copy of itself, but also the ability for that self-replication to persist and occur across different computational contexts. Accordingly, we've developed a system to categorize LLMs based on broad self-replication capabilities in two general classes, Replication-Capability Levels (RCL) and Persistence-Capability Levels (PCL). Using a five-task suite based on practically manipulable modern CLI utilities and computer processes, experiments are orchestrated in a controlled environment with an LLM acting agentically. The performance of the LLM on agent tasks is then computed to produce an R-score (a quantitative evaluation of overall self-replication ability) and data used to categorize LLMs into specific RCL-PCL matrices. SOCK offers two primary contributions: (1) Provides the first formalized definitions and benchmark suite for evaluating LLM self-replication, with the goal of establishing a standard for future research, to our knowledge; (2) Allows the industry to track the effectiveness of future multi-agent systems and mitigate potential self-replication threat vectors within them. The results compiled from evaluating a variety of open-weight and proprietary frontier models reveal significant obstacles to persistent self-replication and multi-agent systems, including context retention and multi-agent decision-making. We propose future research directions to safely reduce the severity of these obstacles, potentially lowering future risk of more functional multi-agent systems.
- Abstract(参考訳): 人間の介入なしに自己複製する大規模言語モデルのLLM(LLM)能力を計測するベンチマークコマンドラインインターフェース(CLI)であるSOCKを紹介する。
このベンチマークでは、自己複製は、自分自身の関数的で実行中のコピーを作成するLLMの能力だけでなく、その自己複製が、異なる計算コンテキストにまたがって持続し、発生する能力として定義される。
そこで我々は,2つの一般クラス,レプリケーション能力レベル (RCL) とパーシステンス能力レベル (PCL) の広い自己複製能力に基づいてLCMを分類するシステムを開発した。
実用的に操作可能なモダンなCLIユーティリティとコンピュータプロセスに基づく5タスクスイートを使用して、LLMが作用する制御環境で実験を編成する。
エージェントタスクにおけるLLMの性能を計算し、Rスコア(全体の自己複製能力の定量的評価)と、LLMを特定のRCL-PCL行列に分類するデータを生成する。
SOCK は,1) LLM の自己複製を評価するための最初の形式化された定義とベンチマークスイートを提供すること,2) 将来的なマルチエージェントシステムの有効性を追求し,その中の潜在的な自己複製脅威ベクターを緩和する,という2つの主要な貢献をしている。
様々なオープンウェイトおよびプロプライエタリフロンティアモデルの評価から得られた結果は、コンテキスト保持やマルチエージェント意思決定など、永続的な自己複製とマルチエージェントシステムに対する大きな障害を明らかにする。
本稿では,これらの障害の重症度を安全に低減し,より機能的なマルチエージェントシステムのリスクを低減するための今後の研究方向を提案する。
関連論文リスト
- Tractable Asymmetric Verification for Large Language Models via Deterministic Replicability [0.6117371161379209]
大規模言語モデル(LLM)の展望は、動的でマルチエージェントなシステムへと急速にシフトします。
本稿では, トラクタブルな非対称な作業を実現するための検証フレームワークを提案する。
対象検定は全再生の12倍以上の速さで行うことができる。
論文 参考訳(メタデータ) (2025-09-14T03:30:06Z) - Large Language Models as Universal Predictors? An Empirical Study on Small Tabular Datasets [0.0]
大規模言語モデル(LLM)は、下流タスクを明示的に微調整することなく、構造化された入力に対して予測タスクを実行することができる。
分類,回帰,クラスタリングタスクのための小規模構造化データセット上でのLCMの実証関数近似能力について検討した。
以上の結果から,LLMは構造化データの汎用的予測エンジンとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-24T15:00:51Z) - Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification [17.67273082468732]
検証 -- エージェントの振る舞いに報酬を割り当てる関数 -- は、数学やボードゲームのような分野におけるAIの進歩の鍵となっている。
我々は,Multimodal Large Language Models (MLLM) を,Webナビゲーション,コンピュータ利用,ロボット操作におけるエージェントトラジェクトリの検証手段として評価した。
本稿では,MLLMの知識と推論をより効果的に活用する軽量な手法である自己検証(SGV)を提案する。
論文 参考訳(メタデータ) (2025-07-15T18:50:29Z) - Heterogeneous Group-Based Reinforcement Learning for LLM-based Multi-Agent Systems [25.882461853973897]
本稿では、相対報酬の利点を推定して政策更新を導くマルチエージェント不均一グループ政策最適化(MHGPO)を提案する。
MHGPOは、批判的ネットワークの必要性を排除し、安定性を向上し、計算オーバーヘッドを減らす。
また,効率性と有効性を両立させる3つのグループロールアウトサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2025-06-03T10:17:19Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - LLM-based Multi-Agent Systems: Techniques and Business Perspectives [26.74974842247119]
マルチモーダル (multi-modal) な大規模言語モデルの時代において、ほとんどの操作プロセスは LLM エージェントを使って再構成および再生することができる。
発達の自然なトレンドとして、呼び出しツールは自律的なエージェントになりつつあるため、完全なインテリジェントシステムはLLMベースのマルチエージェントシステム(LaMAS)であることが判明した。
従来の単一LLMエージェントシステムと比較して、LaMASは、動的タスク分解と有機的特殊化の利点、システム変更の柔軟性の向上、および、各エンティティに対する収益化の実現可能性を有する。
論文 参考訳(メタデータ) (2024-11-21T11:36:29Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。