論文の概要: Lumos: Let there be Language Model System Certification
- arxiv url: http://arxiv.org/abs/2512.02966v1
- Date: Tue, 02 Dec 2025 17:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.985735
- Title: Lumos: Let there be Language Model System Certification
- Title(参考訳): Lumos: 言語モデルシステム認定
- Authors: Isha Chaudhary, Vedaant Jain, Avaljot Singh, Kavya Sachdeva, Sayan Ranu, Gagandeep Singh,
- Abstract要約: 本稿では,LMS(Language Model System)の振る舞いの特定と認証を行うための,最初の原則的フレームワークであるLumosを紹介する。
Lumosはグラフ上の命令的確率的プログラミングDSLであり、独立で同一に分散されたプロンプトを生成する構造を持つ。
本稿では,Lumosで開発された自律走行シナリオにおける視覚言語モデル(VLM)の安全性に関する最初の仕様について述べる。
- 参考スコア(独自算出の注目度): 18.75049815287048
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce the first principled framework, Lumos, for specifying and formally certifying Language Model System (LMS) behaviors. Lumos is an imperative probabilistic programming DSL over graphs, with constructs to generate independent and identically distributed prompts for LMS. It offers a structured view of prompt distributions via graphs, forming random prompts from sampled subgraphs. Lumos supports certifying LMS for arbitrary prompt distributions via integration with statistical certifiers. We provide hybrid (operational and denotational) semantics for Lumos, providing a rigorous way to interpret the specifications. Using only a small set of composable constructs, Lumos can encode existing LMS specifications, including complex relational and temporal specifications. It also facilitates specifying new properties - we present the first safety specifications for vision-language models (VLMs) in autonomous driving scenarios developed with Lumos. Using these, we show that the state-of-the-art VLM Qwen-VL exhibits critical safety failures, producing incorrect and unsafe responses with at least 90% probability in right-turn scenarios under rainy driving conditions, revealing substantial safety risks. Lumos's modular structure allows easy modification of the specifications, enabling LMS certification to stay abreast with the rapidly evolving threat landscape. We further demonstrate that specification programs written in Lumos enable finding specific failure cases exhibited by state-of-the-art LMS. Lumos is the first systematic and extensible language-based framework for specifying and certifying LMS behaviors, paving the way for a wider adoption of LMS certification.
- Abstract(参考訳): 本稿では,LMS(Language Model System)の振る舞いの特定と認証を行うための,最初の原則的フレームワークであるLumosを紹介する。
Lumosはグラフ上の命令的確率的プログラミングDSLであり、LMS用に独立で同一に分散されたプロンプトを生成する構造を持つ。
グラフによるプロンプト分布の構造化ビューを提供し、サンプリングされたサブグラフからランダムなプロンプトを形成する。
Lumosは、統計証明器と統合して任意のプロンプト分布に対する認証 LMS をサポートする。
我々はLumosのハイブリッド(操作的および記述的)セマンティクスを提供し、仕様を厳格に解釈する方法を提供する。
構成可能なコンストラクトの小さなセットだけで、Lumosは複雑なリレーショナルや時間的仕様を含む既存のLMS仕様をエンコードできる。
Lumosで開発された自律走行シナリオにおいて、視覚言語モデル(VLM)の最初の安全仕様を示す。
これらのことから,VLM Qwen-VLは,降雨運転条件下での右旋回シナリオにおいて,少なくとも90%の確率で不正確かつ不安全な応答を発生させ,重大な安全リスクを生じさせることが示唆された。
ルーモスのモジュラー構造は仕様の変更が容易であり、LMS認証は急速に進化する脅威の状況と相容れない。
さらに、Lumosで記述された仕様プログラムにより、最先端のLMSが示す特定の障害事例の発見が可能になることを実証する。
Lumosは、LMSの動作を特定し、認定するための、最初の体系的で拡張可能な言語ベースのフレームワークである。
関連論文リスト
- SENTINEL: A Multi-Level Formal Framework for Safety Evaluation of LLM-based Embodied Agents [25.567593463613388]
本稿では,Large Language Model(LLM)ベースのエンボディエージェントの物理的安全性を公式に評価する最初のフレームワークであるSentinelを紹介する。
我々は、VirtualHomeとALFREDにSentinelを適用し、多様な安全性要件に対して複数のLDMベースのエンボディエージェントを正式に評価する。
論文 参考訳(メタデータ) (2025-10-14T20:53:51Z) - TypePilot: Leveraging the Scala Type System for Secure LLM-generated Code [46.747768845221735]
大規模言語モデル(LLM)は、様々なプログラミング言語のコード生成タスクにおいて顕著な習熟度を示している。
それらのアウトプットには微妙だが重要な脆弱性があり、セキュリティに敏感なシステムやミッションクリティカルなシステムにデプロイすると重大なリスクが生じる。
本稿では,LLM生成コードのセキュリティとロバスト性を高めるために設計されたエージェントAIフレームワークであるTypePilotを紹介する。
論文 参考訳(メタデータ) (2025-10-13T08:44:01Z) - Exploring LLM-based Frameworks for Fault Diagnosis [2.2562573557834686]
大規模言語モデル(LLM)に基づくシステムは,センサリッチ産業環境における自律型健康モニタリングの新たな機会を提供する。
本研究では,LLMがセンサデータから直接障害を検出し,分類すると同時に,自然言語の推論を通じて本質的に説明可能なアウトプットを生成する可能性について検討する。
論文 参考訳(メタデータ) (2025-09-27T04:53:15Z) - Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor [32.34399128209528]
本研究では,事前学習したテキスト・画像拡散モデルが,命令認識型ビジュアルエンコーダとして機能するかどうかを検討する。
拡散機能はセマンティクスに富み、強い画像テキストアライメントを符号化できる。
次に,これらの特徴と大規模言語モデルとの整合性について検討し,漏洩現象を明らかにする。
論文 参考訳(メタデータ) (2025-07-09T17:59:47Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。
ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。
本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文 参考訳(メタデータ) (2024-10-15T21:48:57Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。