論文の概要: Evaluating Nova 2.0 Lite model under Amazon's Frontier Model Safety Framework
- arxiv url: http://arxiv.org/abs/2601.19134v1
- Date: Tue, 27 Jan 2026 03:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 14:02:58.986107
- Title: Evaluating Nova 2.0 Lite model under Amazon's Frontier Model Safety Framework
- Title(参考訳): AmazonのFrontier Model Safety FrameworkによるNova 2.0 Liteモデルの評価
- Authors: Satyapriya Krishna, Matteo Memelli, Tong Wang, Abhinav Mohanty, Claire O'Brien Rajkumar, Payal Motwani, Rahul Gupta, Spyros Matsoukas,
- Abstract要約: 我々はNova 2.0 Liteの評価を行う。
このモデルは、最大100万トークンのコンテキスト長でテキスト、画像、ビデオを処理する。
我々は、フロンティアモデルに関連する新たなリスクと能力が特定されるにつれて、安全評価と緩和パイプラインの強化を続けます。
- 参考スコア(独自算出の注目度): 14.28493845517867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Amazon published its Frontier Model Safety Framework (FMSF) as part of the Paris AI summit, following which we presented a report on Amazon's Premier model. In this report, we present an evaluation of Nova 2.0 Lite. Nova 2.0 Lite was made generally available from amongst the Nova 2.0 series and is one of its most capable reasoning models. The model processes text, images, and video with a context length of up to 1M tokens, enabling analysis of large codebases, documents, and videos in a single prompt. We present a comprehensive evaluation of Nova 2.0 Lite's critical risk profile under the FMSF. Evaluations target three high-risk domains-Chemical, Biological, Radiological and Nuclear (CBRN), Offensive Cyber Operations, and Automated AI R&D-and combine automated benchmarks, expert red-teaming, and uplift studies to determine whether the model exceeds release thresholds. We summarize our methodology and report core findings. We will continue to enhance our safety evaluation and mitigation pipelines as new risks and capabilities associated with frontier models are identified.
- Abstract(参考訳): AmazonはパリAIサミットの一環として、Frontier Model Safety Framework(FMSF)を公開した。
本稿では,Nova 2.0 Liteの評価について述べる。
Nova 2.0 LiteはNova 2.0シリーズの中で一般に利用可能であり、最も有能な推論モデルの一つである。
このモデルは、最大100万トークンのコンテキスト長でテキスト、画像、ビデオを処理し、単一のプロンプトで大きなコードベース、ドキュメント、ビデオの分析を可能にする。
FMSFにおけるNova 2.0 Liteの臨界リスクプロファイルを総合的に評価する。
評価対象は、化学、生物学、放射線学、核(CBRN)、攻撃的サイバーオペレーション、自動AIR&Dの3つのハイリスクドメインであり、自動ベンチマーク、専門家のレッドチーム、そしてモデルがリリースしきい値を超えたかどうかを判断するアップリフト研究を組み合わせたものだ。
方法論を要約し、中核的な発見を報告する。
我々は、フロンティアモデルに関連する新たなリスクと能力が特定されるにつれて、安全評価と緩和パイプラインの強化を続けます。
関連論文リスト
- Evaluating the Critical Risks of Amazon's Nova Premier under the Frontier Model Safety Framework [15.122109053923817]
Nova PremierはAmazonで最も有能なマルチモーダルファンデーションモデルである。
テキスト、画像、動画を100万件のコンテキストウィンドウで処理する。
我々は,ノバス・プレミアの臨界リスクプロファイルの総合評価を行った。
論文 参考訳(メタデータ) (2025-07-07T13:33:35Z) - Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。
我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。
以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文 参考訳(メタデータ) (2025-05-28T12:03:09Z) - The Amazon Nova Family of Models: Technical Report and Model Card [380.6072792059853]
Amazon Novaは、フロンティアインテリジェンスと業界主導の価格パフォーマンスを提供する、新しい世代のファンデーションモデルである。
Amazon Nova Proは、さまざまなタスクに最適な精度、スピード、コストの組み合わせを備えた、高機能なマルチモーダルモデルである。
Amazon Nova Liteは低コストのマルチモーダルモデルで、画像、ビデオ、ドキュメント、テキストを高速に処理できる。
Amazon Nova Microはテキストのみのモデルで、低レイテンシのレスポンスを極めて低コストで提供します。
論文 参考訳(メタデータ) (2025-03-17T15:18:49Z) - o3-mini vs DeepSeek-R1: Which One is Safer? [6.105030666773317]
DeepSeek-R1はAI産業の転換点となっている。
OpenAIのo3-miniモデルは、パフォーマンス、安全性、コストの点で高い標準を設定することが期待されている。
私たちは最近リリースされたASTRALという自動安全テストツールを使用しています。
論文 参考訳(メタデータ) (2025-01-30T15:45:56Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models [67.62126108440003]
マルチモーダルチャットモデルを評価するための新しいオープンベンチマークとフレームワークであるVibe-Evalを紹介する。
Vibe-Evalは、100の難易度を含む269の視覚的理解プロンプトで構成され、専門家によって書かれたゴールド標準応答が完備している。
本稿では,人間と自動評価のトレードオフについて論じるとともに,Reka Coreを用いた自動モデル評価が人的判断と大まかに相関していることを示す。
論文 参考訳(メタデータ) (2024-05-03T17:59:55Z) - Evaluating Frontier Models for Dangerous Capabilities [59.129424649740855]
危険な能力」の評価プログラムを導入し、Gemini 1.0モデルで試行する。
評価対象は,(1)説得と騙し,(2)サイバーセキュリティ,(3)自己増殖,(4)自己推論の4分野である。
我々の目標は、将来のモデルに備えて、危険な能力評価の厳格な科学を前進させることです。
論文 参考訳(メタデータ) (2024-03-20T17:54:26Z) - Gemma: Open Models Based on Gemini Research and Technology [128.57714343844074]
Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。
Gemmaモデルは、言語理解、推論、安全性のための学術ベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-03-13T06:59:16Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。