論文の概要: Risk Assessment Framework for Code LLMs via Leveraging Internal States
- arxiv url: http://arxiv.org/abs/2504.14640v1
- Date: Sun, 20 Apr 2025 14:44:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 21:09:04.540568
- Title: Risk Assessment Framework for Code LLMs via Leveraging Internal States
- Title(参考訳): 内部状態の活用によるコードLLMのリスクアセスメントフレームワーク
- Authors: Yuheng Huang, Lei Ma, Keizaburo Nishikino, Takumi Akazaki,
- Abstract要約: PtTrustは、内部状態事前学習に基づくコードLLMのための2段階のリスクアセスメントフレームワークである。
PtTrustは、LLM状態の一般的な表現を学習するために、大規模な未ラベルのソースコードで教師なしの事前訓練を行う。
コードラインレベルの細粒度リスク評価によるPtTrustの有効性を示す。
- 参考スコア(独自算出の注目度): 4.216536684967512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-training paradigm plays a key role in the success of Large Language Models (LLMs), which have been recognized as one of the most significant advancements of AI recently. Building on these breakthroughs, code LLMs with advanced coding capabilities bring huge impacts on software engineering, showing the tendency to become an essential part of developers' daily routines. However, the current code LLMs still face serious challenges related to trustworthiness, as they can generate incorrect, insecure, or unreliable code. Recent exploratory studies find that it can be promising to detect such risky outputs by analyzing LLMs' internal states, akin to how the human brain unconsciously recognizes its own mistakes. Yet, most of these approaches are limited to narrow sub-domains of LLM operations and fall short of achieving industry-level scalability and practicability. To address these challenges, in this paper, we propose PtTrust, a two-stage risk assessment framework for code LLM based on internal state pre-training, designed to integrate seamlessly with the existing infrastructure of software companies. The core idea is that the risk assessment framework could also undergo a pre-training process similar to LLMs. Specifically, PtTrust first performs unsupervised pre-training on large-scale unlabeled source code to learn general representations of LLM states. Then, it uses a small, labeled dataset to train a risk predictor. We demonstrate the effectiveness of PtTrust through fine-grained, code line-level risk assessment and demonstrate that it generalizes across tasks and different programming languages. Further experiments also reveal that PtTrust provides highly intuitive and interpretable features, fostering greater user trust. We believe PtTrust makes a promising step toward scalable and trustworthy assurance for code LLMs.
- Abstract(参考訳): 事前学習パラダイムは、最近AIの最も重要な進歩の1つとして認識されている大規模言語モデル(LLM)の成功に重要な役割を果たしている。
これらのブレークスルーに基づいて、高度なコーディング機能を備えたコードLLMは、ソフトウェアエンジニアリングに大きな影響を与え、開発者の日々のルーチンの重要な部分となる傾向を示している。
しかしながら、現在のLLMは、誤った、安全でない、信頼できないコードを生成することができるため、信頼性に関する深刻な課題に直面しています。
最近の探索研究は、人間の脳が無意識に自分の誤りを認識するのと同じように、LSMの内部状態を解析することで、そのような危険なアウトプットを検出することを約束している。
しかし、これらのアプローチのほとんどはLLM操作の狭いサブドメインに限定されており、業界レベルのスケーラビリティと実践性を達成するには至っていない。
これらの課題に対処するために,ソフトウェア企業の既存のインフラとシームレスに連携するように設計された,内部状態事前学習に基づくコードLLMのための2段階リスクアセスメントフレームワークであるPtTrustを提案する。
リスクアセスメントフレームワークは、LLMと同様の事前トレーニングプロセスも実施できる、というのが中核的な考えだ。
具体的には、PtTrustはLLM状態の一般的な表現を学習するために、大規模な未ラベルのソースコードで教師なしの事前訓練を行う。
そして、小さなラベル付きデータセットを使用してリスク予測をトレーニングする。
PtTrustの有効性を,細粒度でコードラインレベルのリスク評価によって実証し,タスクや異なるプログラミング言語にまたがる一般化を実証する。
さらなる実験では、PtTrustが非常に直感的で解釈可能な機能を提供し、ユーザ信頼を高めることも明らかにされている。
PtTrustは、LLMのスケーラブルで信頼性の高い保証に向けて、有望な一歩を踏み出しています。
関連論文リスト
- The Hidden Risks of LLM-Generated Web Application Code: A Security-Centric Evaluation of Code Generation Capabilities in Large Language Models [0.769672852567215]
本稿では,複数のモデルにまたがるLLM生成コードのセキュリティコンプライアンスを評価するために,予め定義されたセキュリティパラメータを用いる。
この分析は、認証機構、セッション管理、入力バリデーション、HTTPセキュリティヘッダに重大な脆弱性を明らかにしている。
我々の発見は、LLM生成コードのセキュアなソフトウェアデプロイメントやレビューのために、人間の専門知識が不可欠であることを示している。
論文 参考訳(メタデータ) (2025-04-29T10:23:11Z) - Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception [58.62352010928591]
大きな言語モデル(LLM)は様々なタスクにまたがって優れたパフォーマンスを示すが、しばしば知識境界を正確に測定するのに苦労する。
本稿では,LLMの内部状態を有効利用して,効率性やリスクの観点から知識境界に対する認識を高める方法について検討する。
論文 参考訳(メタデータ) (2025-02-17T11:11:09Z) - Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。
しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。
本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-06-18T11:29:34Z) - Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。
これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。
本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-16T22:04:10Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。
フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。