論文の概要: Managing Escalation in Off-the-Shelf Large Language Models
- arxiv url: http://arxiv.org/abs/2508.01056v1
- Date: Fri, 01 Aug 2025 20:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.685726
- Title: Managing Escalation in Off-the-Shelf Large Language Models
- Title(参考訳): オフザシェルフ大規模言語モデルにおけるエスカレーションの管理
- Authors: Sebastian Elbaum, Jonathan Panther,
- Abstract要約: アメリカ合衆国政府は、シナリオプランニングやアクション・コースの提案に大規模な言語モデルを採用し、今後も継続する。
本研究は,大規模言語モデルの即時導入を認め,それらを国家安全保障目標と整合させる実用的な手段を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: U.S. national security customers have begun to utilize large language models, including enterprise versions of ``off-the-shelf'' models (e.g., ChatGPT) familiar to the public. This uptake will likely accelerate. However, recent studies suggest that off-the-shelf large language models frequently suggest escalatory actions when prompted with geopolitical or strategic scenarios. We demonstrate two simple, non-technical interventions to control these tendencies. Introducing these interventions into the experimental wargame design of a recent study, we substantially reduce escalation throughout the game. Calls to restrict the use of large language models in national security applications are thus premature. The U.S. government is already, and will continue, employing large language models for scenario planning and suggesting courses of action. Rather than warning against such applications, this study acknowledges the imminent adoption of large language models, and provides actionable measures to align them with national security goals, including escalation management.
- Abstract(参考訳): 米国の国家安全保障顧客は、大衆になじみのある ‘off-the-Shelf'' モデルのエンタープライズバージョン (例: ChatGPT) など、大規模な言語モデルの利用を開始している。
この獲得はおそらく加速するだろう。
しかし,近年の研究では,既成の大規模言語モデルでは,地政学的,戦略的なシナリオによってエスカレーション的行動が示唆されることが多いことが示唆されている。
これらの傾向を制御するための2つの簡単な非技術的介入を実証する。
近年の実験的なウォーゲーム設計にこれらの介入を導入することで、ゲーム全体のエスカレーションを大幅に削減する。
そのため、国家安全保障アプリケーションにおける大規模言語モデルの使用を制限する呼びかけは早々である。
アメリカ合衆国政府は、シナリオプランニングやアクション・コースの提案に大規模な言語モデルを採用し、今後も継続する。
このようなアプリケーションに対して警告するよりも、大規模な言語モデルの即時導入を認め、エスカレーション管理を含む国家安全保障上の目標と整合する実行可能な手段を提供する。
関連論文リスト
- Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner [51.77263363285369]
本稿では,対話行動トークンと呼ばれる言語モデルエージェントを用いて,目標指向の対話を計画する手法を提案する。
中心となる考え方は、各発話をアクションとして扱うことで、強化学習のような既存のアプローチを適用することができるゲームに対話を変換することである。
論文 参考訳(メタデータ) (2024-06-17T18:01:32Z) - Scaling Behavior of Machine Translation with Large Language Models under Prompt Injection Attacks [4.459306403129608]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて好まれる基盤プラットフォームになりつつある。
彼らの汎用性は、要求命令に埋め込み、モデルが無許可でおそらく安全でない方法で振る舞うエンドユーザによって、それらをサブバージョンに開放する。
本研究では,これらのプロンプトインジェクション・アタック(PIA)をLLMの複数のファミリーで機械翻訳タスクに適用し,モデルサイズが攻撃成功率に与える影響に着目した。
論文 参考訳(メタデータ) (2024-03-14T19:39:10Z) - Escalation Risks from Language Models in Military and Diplomatic
Decision-Making [0.0]
この研究は、シミュレーションされたウォーゲームにおいて、複数のAIエージェントの振る舞いを精査することを目的としている。
我々は,これらのエージェントによる行動のエスカレーションのリスクを評価するために,新たなウォーゲームシミュレーションとスコアリングフレームワークを設計する。
我々は、モデルが兵器追跡力学を発達させ、より大きな紛争、そして稀に核兵器の配備に至る傾向があることを観察する。
論文 参考訳(メタデータ) (2024-01-07T07:59:10Z) - Evaluating Language-Model Agents on Realistic Autonomous Tasks [3.2859441839446832]
本報告では,言語モデルエージェントが資源を取得し,自分自身のコピーを作成し,野生で遭遇する新たな課題に適応する能力について検討する。
ARAの能力は広範かつ予測しにくい結果をもたらす可能性があると我々は信じている。
システムがARAを使えるようになると、システムの能力にバウンダリを置くことがかなり難しくなります。
論文 参考訳(メタデータ) (2023-12-18T19:27:09Z) - Exploiting Large Language Models (LLMs) through Deception Techniques and Persuasion Principles [2.134057414078079]
大きな言語モデル(LLM)は広く使われるようになり、セキュリティと堅牢性を保証することが重要である。
本稿では,このような大規模言語モデルによる知覚的相互作用に対する活用に焦点を当てた新しい研究を提案する。
以上の結果から,これらの大規模言語モデルが詐欺や社会工学的攻撃の影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2023-11-24T23:57:44Z) - Watermarking LLMs with Weight Quantization [61.63899115699713]
本稿では,大規模言語モデルの量子化過程に透かしを植え付ける新しい透かし戦略を提案する。
GPT-Neo や LLaMA など,オープンソースの大規模言語モデルに透かしを組み込むことに成功した。
論文 参考訳(メタデータ) (2023-10-17T13:06:59Z) - Statler: State-Maintaining Language Models for Embodied Reasoning [19.884696137429813]
本研究では,大言語モデルに世界状態を推定するフレームワークであるStatlerを提案する。
そして、我々のフレームワークは、現在の世界状態の推定に対して各アクションを条件付けします。
複数のロボット計画タスクにおいて、強力な競合する手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-06-30T17:58:02Z) - PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning [77.03847056008598]
PlaSmaは、手続き的な知識と(制約のある)言語計画能力を持つ小さな言語モデルを実現するための、新しい2段階のアプローチである。
我々は,小言語モデルにおけるコモンセンス知識を高めるための記号的手続き的知識蒸留法と,より構造化された正確な推論を容易にする推論時アルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-05-31T00:55:40Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey [50.58063811745676]
この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。
言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
論文 参考訳(メタデータ) (2022-10-14T10:43:39Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。