Fugu-MT 論文翻訳(概要): Confidence-Building Measures for Artificial Intelligence: Workshop Proceedings

論文の概要: Confidence-Building Measures for Artificial Intelligence: Workshop Proceedings

arxiv url: http://arxiv.org/abs/2308.00862v1
Date: Tue, 1 Aug 2023 22:20:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-03 14:18:56.989200
Title: Confidence-Building Measures for Artificial Intelligence: Workshop Proceedings
Title（参考訳）: 人工知能の信頼性構築対策 : ワークショップの成果
Authors: Sarah Shoker, Andrew Reddie, Sarah Barrington, Miles Brundage, Husanjot Chahal, Michael Depp, Bill Drexel, Ritwik Gupta, Marina Favaro, Jake Hecla, Alan Hickey, Margarita Konaev, Kirthi Kumar, Nathan Lambert, Andrew Lohn, Cullen O'Keefe, Nazneen Rajani, Michael Sellitto, Robert Trager, Leah Walker, Alexa Wehsener, Jessica Young
Abstract要約: 財団のモデルは最終的に州の安全を損なうためのいくつかの経路を導入するかもしれない。 The Confidence-Building Measures for Artificial Intelligenceワークショップは、リスクを軽減するためのツールと戦略を検討するために、マルチステークホルダグループをまとめました。 CBMの柔軟性は、基礎モデルランドスケープの急速な変化をナビゲートするための重要な手段となる。
参考スコア（独自算出の注目度）: 3.130559276361345
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Foundation models could eventually introduce several pathways for undermining state security: accidents, inadvertent escalation, unintentional conflict, the proliferation of weapons, and the interference with human diplomacy are just a few on a long list. The Confidence-Building Measures for Artificial Intelligence workshop hosted by the Geopolitics Team at OpenAI and the Berkeley Risk and Security Lab at the University of California brought together a multistakeholder group to think through the tools and strategies to mitigate the potential risks introduced by foundation models to international security. Originating in the Cold War, confidence-building measures (CBMs) are actions that reduce hostility, prevent conflict escalation, and improve trust between parties. The flexibility of CBMs make them a key instrument for navigating the rapid changes in the foundation model landscape. Participants identified the following CBMs that directly apply to foundation models and which are further explained in this conference proceedings: 1. crisis hotlines 2. incident sharing 3. model, transparency, and system cards 4. content provenance and watermarks 5. collaborative red teaming and table-top exercises and 6. dataset and evaluation sharing. Because most foundation model developers are non-government entities, many CBMs will need to involve a wider stakeholder community. These measures can be implemented either by AI labs or by relevant government actors.
Abstract（参考訳）: 事故、不注意なエスカレーション、意図しない紛争、兵器の拡散、そして人間の外交への干渉は、長いリストの中でごくわずかである。 OpenAIのGeopolitics Teamとカリフォルニア大学バークレー校のBerkeley Risk and Security Labが主催する、人工知能のための信頼性構築対策ワークショップは、基礎モデルから国際的セキュリティへの潜在的なリスクを軽減するためのツールと戦略を通じて、マルチステークホルダーグループを結成した。冷戦に起源を持つ信頼構築対策(CBM)は、敵意を減らし、対立のエスカレーションを防ぎ、当事者間の信頼を改善する行動である。 CBMの柔軟性は、基礎モデルランドスケープの急速な変化をナビゲートするための重要な手段となる。参加者は、ファンデーションモデルに直接適用される以下のCBMを特定し、この会議手続きでさらに説明する。 1.危機ホットライン 2.インシデント共有 3.モデル、透明性、システムカード 4.内容証明と透かし 5. 協力的レッドチームと卓上運動 6.データセットと評価共有ほとんどの基礎モデル開発者は非政府組織であるため、多くのCBMはより広い利害関係者コミュニティを巻き込む必要がある。これらの措置は、aiラボまたは関連する政府機関によって実施することができる。

関連論文リスト

Extending the Formalism and Theoretical Foundations of Cryptography to AI [18.724847875398435]
言語モデル(Large Language Models)の最近の進歩は、自律型LMベースのエージェントの開発を可能にしている。セキュリティリスクを軽減するための新たな方向の1つは、アクセス制御とパーミッション機構を通じてエージェントの動作を制限することだ。まず、言語モデルに合わせた攻撃分類を構築することで、景観を体系化する。次に,AIOracleをアルゴリズムで定義し,セキュリティゲームフレームワークを導入することにより,エージェントアクセス制御の形式的処理を開発する。
論文参考訳（メタデータ） (2026-03-03T04:11:21Z)
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5 [61.787178868669265]
この技術レポートは、サイバー犯罪、説得と操作、戦略上の詐欺、制御されていないAIR&D、自己複製の5つの重要な側面について、更新されきめ細かな評価を提示する。この作業は、現在のAIフロンティアのリスクに対する理解を反映し、これらの課題を軽減するための集団行動を促します。
論文参考訳（メタデータ） (2026-02-16T04:30:06Z)
OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文参考訳（メタデータ） (2026-02-13T21:32:32Z)
Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。 Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文参考訳（メタデータ） (2025-09-02T03:04:27Z)
Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。 Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文参考訳（メタデータ） (2025-07-28T05:13:04Z)
When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems [78.04679174291329]
悪意のあるマルチエージェントシステム(MAS)のリスクをシミュレートするための概念実証手法を提案する。この枠組みを、誤情報拡散とeコマース詐欺という2つのリスクの高い分野に適用する。その結果,分散システムの方が,集中型システムよりも悪意ある行動を実行するのに効果的であることが示唆された。
論文参考訳（メタデータ） (2025-07-19T15:17:30Z)
A Different Approach to AI Safety: Proceedings from the Columbia Convening on Openness in Artificial Intelligence and AI Safety [12.885990679810831]
オープンウェイトでオープンソースのファンデーションモデルは、AIシステムを安全にする義務を強化しています。本稿では,AIオープンネスと安全に関するコロンビア・コンベンションの結果を報告する。
論文参考訳（メタデータ） (2025-06-27T12:45:44Z)
Report on NSF Workshop on Science of Safe AI [75.96202715567088]
機械学習の新たな進歩は、社会問題に対する技術ベースのソリューションを開発する新たな機会につながっている。 AIの約束を果たすためには、正確でパフォーマンスが高く、安全で信頼性の高いAIベースのシステムを開発する方法に取り組む必要がある。本報告はワークショップの安全性の異なる側面に対処した作業グループにおける議論の結果である。
論文参考訳（メタデータ） (2025-06-24T18:55:29Z)
MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming [38.25556351567948]
textbfMulti-textbfTurn textbfSafety textbfAlignment (urapproach)フレームワーク。レッドチームモデルは、敵のプロンプトを生成するために、思考誘導型マルチラウンドジェイルブレイク攻撃について学習する。敵の反復最適化ステージ、レッドチームモデル、ターゲットモデルは、相互作用におけるそれぞれの能力を継続的に改善します。
論文参考訳（メタデータ） (2025-05-22T08:22:57Z)
An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文参考訳（メタデータ） (2025-04-02T15:59:31Z)
Exploring Potential Prompt Injection Attacks in Federated Military LLMs and Their Mitigation [3.0175628677371935]
大規模言語モデル(LLM)を開発するための軍事協力において,連邦学習(FL)がますます採用されている。迅速なインジェクション攻撃-入力プロンプトの有害な操作は、運用上のセキュリティを損なう恐れがあり、意思決定を妨害し、同盟国間の信頼を損なう可能性のある、新たな脅威を規定する。我々は,技術と政策の両面を取り入れた人間とAIの協調的な枠組みを提案する。
論文参考訳（メタデータ） (2025-01-30T15:14:55Z)
Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文参考訳（メタデータ） (2024-11-21T08:20:31Z)
Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文参考訳（メタデータ） (2024-11-04T17:41:25Z)
Mind the Gap: Foundation Models and the Covert Proliferation of Military Intelligence, Surveillance, and Targeting [0.0]
我々は、個人識別可能な情報がISTAR能力に寄与するのを防ぐことができないことが、敵による軍事AI技術の使用と普及に繋がることを示した。我々は、軍事システムを確保し、AI兵器の普及を制限するためには、軍用AIシステムと個人データを商業基盤モデルから絶縁する必要があると結論付けている。
論文参考訳（メタデータ） (2024-10-18T19:04:30Z)
Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文参考訳（メタデータ） (2024-09-26T21:00:45Z)
Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2024-09-23T10:18:10Z)
Large Model Based Agents: State-of-the-Art, Cooperation Paradigms, Security and Privacy, and Future Trends [64.57762280003618]
近い将来、LM駆動の汎用AIエージェントが、生産タスクにおいて不可欠なツールとして機能することが予想される。本稿では,将来のLMエージェントの自律的協調に関わるシナリオについて検討する。
論文参考訳（メタデータ） (2024-09-22T14:09:49Z)
The GPT Dilemma: Foundation Models and the Shadow of Dual-Use [0.0]
本稿では、基礎モデルの二重利用課題と、国際安全保障に影響を及ぼすリスクについて検討する。本稿では,基礎モデルの開発サイクルにおいて,モデル入力,機能,システム利用事例,システム展開の4つの重要な要因を分析した。本稿では、中距離原子力軍(INF)条約をケーススタディとして、関連するリスクを軽減するためのいくつかの戦略を提案する。
論文参考訳（メタデータ） (2024-07-29T22:36:27Z)
Symbiotic Game and Foundation Models for Cyber Deception Operations in Strategic Cyber Warfare [16.378537388284027]
私たちは現在、戦術の急速な進化、知性の非対称性の向上、ハッキングツールのアクセシビリティ向上など、前例のないサイバー戦争に直面しています。本章は、サイバー詐欺戦術の分析、設計、実施におけるゲーム理論モデルと基礎モデル(FM)の重要な役割を強調することを目的とする。
論文参考訳（メタデータ） (2024-03-14T20:17:57Z)
A Safe Harbor for AI Evaluation and Red Teaming [124.89885800509505]
一部の研究者は、そのような研究の実施や研究成果の公表が、アカウント停止や法的報復につながることを恐れている。我々は、主要なAI開発者が法的、技術的に安全な港を提供することを約束することを提案します。これらのコミットメントは、ジェネレーティブAIのリスクに取り組むための、より包括的で意図しないコミュニティ努力への必要なステップである、と私たちは信じています。
論文参考訳（メタデータ） (2024-03-07T20:55:08Z)
Escalation Risks from Language Models in Military and Diplomatic Decision-Making [0.0]
この研究は、シミュレーションされたウォーゲームにおいて、複数のAIエージェントの振る舞いを精査することを目的としている。我々は,これらのエージェントによる行動のエスカレーションのリスクを評価するために,新たなウォーゲームシミュレーションとスコアリングフレームワークを設計する。我々は、モデルが兵器追跡力学を発達させ、より大きな紛争、そして稀に核兵器の配備に至る傾向があることを観察する。
論文参考訳（メタデータ） (2024-01-07T07:59:10Z)
Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。このような攻撃がなぜ成功し、どのように発生できるかを考察する。障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文参考訳（メタデータ） (2023-07-05T17:58:10Z)
Cerberus: Exploring Federated Prediction of Security Events [21.261584854569893]
フェデレートラーニング(FL)による将来のセキュリティイベントの予測の可能性について検討する。我々は、参加する組織に対して、リカレントニューラルネットワーク(RNN)モデルの協調トレーニングを可能にするシステムであるCerberusを紹介する。
論文参考訳（メタデータ） (2022-09-07T10:31:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。