論文の概要: GAF-Guard: An Agentic Framework for Risk Management and Governance in Large Language Models
- arxiv url: http://arxiv.org/abs/2507.02986v2
- Date: Tue, 08 Jul 2025 15:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 12:20:17.785687
- Title: GAF-Guard: An Agentic Framework for Risk Management and Governance in Large Language Models
- Title(参考訳): GAF-Guard:大規模言語モデルにおけるリスク管理とガバナンスのためのエージェントフレームワーク
- Authors: Seshu Tirupathi, Dhaval Salwala, Elizabeth Daly, Inge Vejsbjerg,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域にまたがって適用され続けている。
本稿では、ユーザ、ユースケース、モデル自体を中央に配置するLCMガバナンスのためのエージェントフレームワークを紹介する。
このフレームワークは、LLMベースのアプリケーションのデプロイに伴うリスクを検出し、監視するように設計されている。
- 参考スコア(独自算出の注目度): 2.2713444594182843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) continue to be increasingly applied across various domains, their widespread adoption necessitates rigorous monitoring to prevent unintended negative consequences and ensure robustness. Furthermore, LLMs must be designed to align with human values, like preventing harmful content and ensuring responsible usage. The current automated systems and solutions for monitoring LLMs in production are primarily centered on LLM-specific concerns like hallucination etc, with little consideration given to the requirements of specific use-cases and user preferences. This paper introduces GAF-Guard, a novel agentic framework for LLM governance that places the user, the use-case, and the model itself at the center. The framework is designed to detect and monitor risks associated with the deployment of LLM based applications. The approach models autonomous agents that identify risks, activate risk detection tools, within specific use-cases and facilitate continuous monitoring and reporting to enhance AI safety, and user expectations. The code is available at https://github.com/IBM/risk-atlas-nexus-demos/tree/main/gaf-guard.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな領域にまたがって適用され続けているため、その普及は意図しない負の結果を防止し、堅牢性を確保するために厳密な監視を必要とする。
さらに、LLMは有害なコンテンツの防止や責任ある使用の保証など、人間の価値と整合するように設計されなければならない。
現在の自動システムとLLMを本番環境で監視するためのソリューションは、主に幻覚などのLCM固有の関心事に焦点を当てており、特定のユースケースの要件やユーザの好みにはほとんど考慮されていない。
本稿では, LLMガバナンスのための新しいエージェントフレームワークであるGAF-Guardを紹介し, ユーザ, ユースケース, モデル自体を中心に配置する。
このフレームワークは、LLMベースのアプリケーションのデプロイに伴うリスクを検出し、監視するように設計されている。
このアプローチは、リスクを特定し、特定のユースケース内でリスク検出ツールをアクティベートし、継続的な監視と報告を促進し、AIの安全性とユーザの期待を高める自律エージェントをモデル化する。
コードはhttps://github.com/IBM/risk-atlas-nexus-demos/tree/main/gaf-guardで公開されている。
関連論文リスト
- LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。
これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。
本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T05:58:14Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。
これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。
本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-16T22:04:10Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。