論文の概要: Improving Methodologies for Agentic Evaluations Across Domains: Leakage of Sensitive Information, Fraud and Cybersecurity Threats
- arxiv url: http://arxiv.org/abs/2601.15679v1
- Date: Thu, 22 Jan 2026 06:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.510615
- Title: Improving Methodologies for Agentic Evaluations Across Domains: Leakage of Sensitive Information, Fraud and Cybersecurity Threats
- Title(参考訳): ドメイン横断のエージェント評価手法の改善--センシティブ・インフォメーション・詐欺・サイバーセキュリティ・脅威の漏洩
- Authors: Ee Wei Seah, Yongsen Zheng, Naga Nikshith, Mahran Morsidi, Gabriel Waikin Loh Matienzo, Nigel Gay, Akriti Vij, Benjamin Chua, En Qi Ng, Sharmini Johnson, Vanessa Wilfred, Wan Sie Lee, Anna Davidson, Catherine Devine, Erin Zorer, Gareth Holvey, Harry Coppock, James Walpole, Jerome Wynee, Magda Dubois, Michael Schmatz, Patrick Keane, Sam Deverett, Bill Black, Bo Yan, Bushra Sabir, Frank Sun, Hao Zhang, Harriet Farlow, Helen Zhou, Lingming Dong, Qinghua Lu, Seung Jang, Sharif Abuadbba, Simon O'Callaghan, Suyu Ma, Tom Howroyd, Cyrus Fung, Fatemeh Azadi, Isar Nejadgholi, Krishnapriya Vishnubhotla, Pulei Xiong, Saeedeh Lohrasbi, Scott Buffett, Shahrear Iqbal, Sowmya Vajjala, Anna Safont-Andreu, Luca Massarelli, Oskar van der Wal, Simon Möller, Agnes Delaborde, Joris Duguépéroux, Nicolas Rolin, Romane Gallienne, Sarah Behanzin, Tom Seimandi, Akiko Murakami, Takayuki Semitsu, Teresa Tsukiji, Angela Kinuthia, Michael Michie, Stephanie Kasaon, Jean Wangari, Hankyul Baek, Jaewon Noh, Kihyuk Nam, Sang Seo, Sungpil Shin, Taewhi Lee, Yongsu Kim,
- Abstract要約: エージェントテストはいまだに初期段階にあり、現在も発展途上科学である。
AIエージェントがグローバルにデプロイされ始めるにつれ、異なる言語や文化を正確かつ安全に扱うことが重要です。
これは、Networkが実施した2つの初期の共同テストの成果に基づいて、第3回の演習である。
- 参考スコア(独自算出の注目度): 17.766681829762256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid rise of autonomous AI systems and advancements in agent capabilities are introducing new risks due to reduced oversight of real-world interactions. Yet agent testing remains nascent and is still a developing science. As AI agents begin to be deployed globally, it is important that they handle different languages and cultures accurately and securely. To address this, participants from The International Network for Advanced AI Measurement, Evaluation and Science, including representatives from Singapore, Japan, Australia, Canada, the European Commission, France, Kenya, South Korea, and the United Kingdom have come together to align approaches to agentic evaluations. This is the third exercise, building on insights from two earlier joint testing exercises conducted by the Network in November 2024 and February 2025. The objective is to further refine best practices for testing advanced AI systems. The exercise was split into two strands: (1) common risks, including leakage of sensitive information and fraud, led by Singapore AISI; and (2) cybersecurity, led by UK AISI. A mix of open and closed-weight models were evaluated against tasks from various public agentic benchmarks. Given the nascency of agentic testing, our primary focus was on understanding methodological issues in conducting such tests, rather than examining test results or model capabilities. This collaboration marks an important step forward as participants work together to advance the science of agentic evaluations.
- Abstract(参考訳): 自律型AIシステムの急速な増加とエージェント能力の進歩は、現実世界のインタラクションの監視を減らし、新たなリスクをもたらしている。
しかし、エージェントテストはいまだに初期段階にあり、まだ発展途上である。
AIエージェントがグローバルにデプロイされ始めるにつれ、異なる言語や文化を正確かつ安全に扱うことが重要です。
これを解決するため、シンガポール、日本、オーストラリア、カナダ、欧州委員会、フランス、ケニア、韓国、および英国の代表者を含む、高度なAI測定、評価、科学のための国際ネットワークの参加者が集まって、エージェント評価へのアプローチを調整した。
これは、2024年11月と2025年2月にネットワークが行った2回の合同試験の洞察に基づく3回目の演習である。
目標は、高度なAIシステムをテストするためのベストプラクティスをさらに洗練することだ。
1)シンガポールのAISIが主導する機密情報や詐欺の漏洩を含む一般的なリスクと、英国AISIが主導するサイバーセキュリティの2つに分けられた。
オープンおよびクローズドウェイトモデルの混合は、様々な公開エージェントベンチマークのタスクに対して評価された。
エージェントテストの欠如を考慮すると、テスト結果やモデル機能を調べるのではなく、このようなテストを実行する際の方法論的な問題を理解することに注力しました。
このコラボレーションは、エージェント評価の科学を前進させるために、参加者が協力する上で重要な一歩となる。
関連論文リスト
- The Role of AI in Modern Penetration Testing [0.0]
侵入テストはサイバーセキュリティの基礎であり、伝統的に手動の時間集約的なプロセスによって駆動される。
この体系的な文献レビューは、人工知能(AI)が浸透試験をどう変えているかを検証している。
論文 参考訳(メタデータ) (2025-12-13T13:34:31Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - Ask What Your Country Can Do For You: Towards a Public Red Teaming Model [1.4138385478350077]
我々は,協調型公開AIリピート演習を提案する。
最初の個人によるデモ隊演習はCAMLIS 2024と共同で行われた。
このアプローチは有意義な結果を提供できると同時に、多くのAI開発管轄区域にも拡張性がある、と私たちは主張する。
論文 参考訳(メタデータ) (2025-10-22T22:24:21Z) - International AI Safety Report 2025: First Key Update: Capabilities and Risk Implications [118.49965571969089]
今回のアップデートは、AIの能力が最初のAI Safety Reportからどのように改善されたかを調べるものだ。
重大な新たな証拠が評価を更新する重要なリスク領域に焦点を当てている。
論文 参考訳(メタデータ) (2025-10-15T15:13:49Z) - The Singapore Consensus on Global AI Safety Research Priorities [128.58674892183657]
2025年シンガポールAI会議(SCAI: International Scientific Exchange on AI Safety)は、この分野での研究を支援することを目的としている。
ヨシュア・ベンジオが議長を務める国際AI安全レポート(AI Safety Report)は、33の政府によって支援されている。
レポートは、AI安全研究ドメインを3つのタイプに分類する。信頼に値するAIシステム(開発)作成の課題、リスク評価の課題(評価)、デプロイメント後の監視と介入の課題(会議)。
論文 参考訳(メタデータ) (2025-06-25T17:59:50Z) - Report on NSF Workshop on Science of Safe AI [75.96202715567088]
機械学習の新たな進歩は、社会問題に対する技術ベースのソリューションを開発する新たな機会につながっている。
AIの約束を果たすためには、正確でパフォーマンスが高く、安全で信頼性の高いAIベースのシステムを開発する方法に取り組む必要がある。
本報告はワークショップの安全性の異なる側面に対処した作業グループにおける議論の結果である。
論文 参考訳(メタデータ) (2025-06-24T18:55:29Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Autonomation, Not Automation: Activities and Needs of European Fact-checkers as a Basis for Designing Human-Centered AI Systems [7.654738260420559]
我々は中央ヨーロッパのファクトチェッカーに詳しいインタビューを行った。
我々の貢献には、非英語圏における事実確認作業の多様性に関する詳細な調査が含まれる。
我々は,ファクトチェッカーの活動に関する知見をマッピングし,AI研究に必要な課題について考察した。
論文 参考訳(メタデータ) (2022-11-22T10:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。