論文の概要: Attesting LLM Pipelines: Enforcing Verifiable Training and Release Claims
- arxiv url: http://arxiv.org/abs/2603.28988v1
- Date: Mon, 30 Mar 2026 20:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.851959
- Title: Attesting LLM Pipelines: Enforcing Verifiable Training and Release Claims
- Title(参考訳): LLMパイプラインの検証 - 検証可能なトレーニングとリリースのクレームの実施
- Authors: Zhuoran Tan, Jeremy Singer, Christos Anagnostopoulos,
- Abstract要約: 現代の大規模言語モデル(LLM)システムは、事前トレーニングされた重み付け、微調整アダプタ、データセット、依存関係パッケージ、コンテナイメージといったサードパーティの成果物から組み立てられている。
このスピードには、妥協された依存関係、悪意のあるハブアーティファクト、安全でないデフォールト化、偽造された前兆、バックドアモデルなど、サプライチェーンのリスクが伴う。
本稿では,信頼された環境にアーティファクトが認められる前に,クレームエビデンスを検証し,安全なローディングと静的スキャンポリシーを適用し,セキュアなシリアル配置制約を適用した,証明対応のプロモーションゲートを提案する。
- 参考スコア(独自算出の注目度): 2.0403981727850233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Large Language Model (LLM) systems are assembled from third-party artifacts such as pre-trained weights, fine-tuning adapters, datasets, dependency packages, and container images, fetched through automated pipelines. This speed comes with supply-chain risks, including compromised dependencies, malicious hub artifacts, unsafe deserialization, forged provenance, and backdoored models. A core gap is that training and release claims (e.g., data and code lineage, build environment, and security scanning results) are rarely cryptographically bound to the artifacts they describe, making enforcement inconsistent across teams and stages. We propose an attestation-aware promotion gate: before an artifact is admitted into trusted environments (training, fine-tuning, deployment), the gate verifies claim evidence, enforces safe loading and static scanning policies, and applies secure-by-default deployment constraints. When organizations operate runtime security tooling, the same gate can optionally ingest standardized dynamic signals via plugins to reduce uncertainty for high-risk artifacts. We outline a practical claims-to-controls mapping and an evaluation blueprint using representative supply-chain scenarios and operational metrics (coverage and decisions), charting a path toward a full research paper.
- Abstract(参考訳): 最新のLarge Language Model(LLM)システムは、トレーニング済みの重み付け、微調整アダプタ、データセット、依存性パッケージ、コンテナイメージといったサードパーティの成果物から組み立てられ、自動パイプラインを通じて取得される。
このスピードには、妥協された依存関係、悪意のあるハブアーティファクト、安全でないデシリアライゼーション、偽造された証明、バックドアモデルなど、サプライチェーンのリスクが伴う。
トレーニングとリリースのクレーム(例えば、データとコードライン、ビルド環境、セキュリティスキャン結果)が、彼らが記述したアーティファクトに暗号化的にバインドされることは滅多になく、チームやステージ間で強制的に矛盾する。
本稿では,信頼された環境(トレーニング,微調整,デプロイメント)にアーティファクトが承認される前に,クレームエビデンスを検証し,安全なローディングと静的スキャンポリシを適用し,セキュアなデプロイ制約を適用することを提案する。
組織がランタイムセキュリティツールを運用する場合、同じゲートがプラグインを介して任意の方法で標準化された動的信号を取り込み、リスクの高いアーティファクトの不確実性を低減する。
代表的なサプライチェーンシナリオと運用メトリクス(カバレッジと意思決定)を用いて、実用的なクレーム・ツー・コントロールマッピングと評価青写真を作成し、完全な研究論文への道筋を図示する。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Agentic AI for Autonomous Defense in Software Supply Chain Security: Beyond Provenance to Vulnerability Mitigation [0.0]
本論文は,自律型ソフトウェアサプライチェーンセキュリティに基づくエージェント人工知能(AI)の例を含む。
大規模言語モデル(LLM)ベースの推論、強化学習(RL)、マルチエージェント調整を組み合わせている。
その結果、エージェントAIは、自己防衛的で積極的なソフトウェアサプライチェーンへの移行を促進することが示されている。
論文 参考訳(メタデータ) (2025-12-29T14:06:09Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - MAIF: Enforcing AI Trust and Provenance with an Artifact-Centric Agentic Paradigm [0.5495755145898128]
現在のAIシステムは、監査証跡、証明追跡、EU AI Actのような新たな規則で要求される説明可能性に欠ける不透明なデータ構造で運用されている。
動作は一時的なタスクではなく、永続的で検証可能なデータアーティファクトによって駆動される、アーティファクト中心のAIエージェントパラダイムを提案する。
プロダクション対応実装では、超高速ストリーミング(2,720.7MB/s)、最適化されたビデオ処理(1,342MB/s)、エンタープライズレベルのセキュリティが示されている。
論文 参考訳(メタデータ) (2025-11-19T04:10:32Z) - AI Bill of Materials and Beyond: Systematizing Security Assurance through the AI Risk Scanning (AIRS) Framework [31.261980405052938]
人工知能(AI)システムの保証は、ソフトウェアサプライチェーンセキュリティ、敵機械学習、ガバナンスドキュメントに分散している。
本稿では,AI保証の運用を目的とした脅威モデルに基づくエビデンス発生フレームワークであるAI Risk Scanning(AIRS)フレームワークを紹介する。
論文 参考訳(メタデータ) (2025-11-16T16:10:38Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - A Rusty Link in the AI Supply Chain: Detecting Evil Configurations in Model Repositories [9.095642871258455]
本研究は,Hugging Face上での悪意のある構成に関する最初の包括的研究である。
特に、元々モデルの設定を意図した設定ファイルは、不正なコードを実行するために利用することができる。
論文 参考訳(メタデータ) (2025-05-02T07:16:20Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。