論文の概要: Guardrails for trust, safety, and ethical development and deployment of Large Language Models (LLM)
- arxiv url: http://arxiv.org/abs/2601.14298v1
- Date: Fri, 16 Jan 2026 20:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.082853
- Title: Guardrails for trust, safety, and ethical development and deployment of Large Language Models (LLM)
- Title(参考訳): 大規模言語モデル(LLM)の信頼性・安全性・倫理的開発・展開のためのガードレール
- Authors: Anjanava Biswas, Wrick Talukdar,
- Abstract要約: 大規模言語モデル(Large Language Models, LLM)は、ChatGPTのような生成AIアプリケーションを支えるパワーハウスである。
それらは、個人情報をリークし、偽情報を生成し、悪質な目的に使用できるコンテンツを生成するために強制することができる。
本研究では,LLMの開発と展開のための安全ガードレールの実装に使用可能な,信頼と安全モジュールを備えたフレキシブル適応シーケンス機構を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The AI era has ushered in Large Language Models (LLM) to the technological forefront, which has been much of the talk in 2023, and is likely to remain as such for many years to come. LLMs are the AI models that are the power house behind generative AI applications such as ChatGPT. These AI models, fueled by vast amounts of data and computational prowess, have unlocked remarkable capabilities, from human-like text generation to assisting with natural language understanding (NLU) tasks. They have quickly become the foundation upon which countless applications and software services are being built, or at least being augmented with. However, as with any groundbreaking innovations, the rise of LLMs brings forth critical safety, privacy, and ethical concerns. These models are found to have a propensity to leak private information, produce false information, and can be coerced into generating content that can be used for nefarious purposes by bad actors, or even by regular users unknowingly. Implementing safeguards and guardrailing techniques is imperative for applications to ensure that the content generated by LLMs are safe, secure, and ethical. Thus, frameworks to deploy mechanisms that prevent misuse of these models via application implementations is imperative. In this study, wepropose a Flexible Adaptive Sequencing mechanism with trust and safety modules, that can be used to implement safety guardrails for the development and deployment of LLMs.
- Abstract(参考訳): AIの時代は大きな言語モデル(LLM)を、2023年に話題になった技術の最前線に導いてきた。
LLMは、ChatGPTのような生成AIアプリケーションの背後にあるパワーハウスであるAIモデルである。
これらのAIモデルは、膨大な量のデータと計算能力によって刺激され、人間のようなテキスト生成から自然言語理解(NLU)タスクの支援まで、目覚ましい能力を解き放ちました。
彼らはすぐに、数え切れないほどのアプリケーションやソフトウェアサービスが構築されている基盤となり、少なくとも拡張されている。
しかし、画期的なイノベーションと同様に、LLMの台頭は、重要な安全、プライバシー、倫理的懸念を引き起こす。
これらのモデルは、個人情報をリークしたり、偽情報を生成したり、悪役や一般ユーザーによって悪質な目的に使用できるコンテンツを生成するのに役立てることができる。
LLMが生成するコンテンツが安全で、安全で、倫理的であることを保証するためには、セーフガードとガードレール技術の実装が不可欠である。
したがって、アプリケーション実装によるこれらのモデルの誤使用を防止するメカニズムをデプロイするフレームワークは必須である。
本研究では,LLMの開発と展開のための安全ガードレールの実装に使用できる,信頼と安全モジュールを備えたフレキシブル適応シーケンス機構を提案する。
関連論文リスト
- Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - The Hidden Risks of LLM-Generated Web Application Code: A Security-Centric Evaluation of Code Generation Capabilities in Large Language Models [0.769672852567215]
本稿では,複数のモデルにまたがるLLM生成コードのセキュリティコンプライアンスを評価するために,予め定義されたセキュリティパラメータを用いる。
この分析は、認証機構、セッション管理、入力バリデーション、HTTPセキュリティヘッダに重大な脆弱性を明らかにしている。
我々の発見は、LLM生成コードのセキュアなソフトウェアデプロイメントやレビューのために、人間の専門知識が不可欠であることを示している。
論文 参考訳(メタデータ) (2025-04-29T10:23:11Z) - Security Steerability is All You Need [3.475823664889679]
この研究は、GenAIセキュリティに対するアプリケーション中心のアプローチに焦点を当てている。
LLMはアドホックなアプリケーション固有の脅威から保護することはできないが、そのような脅威からアプリケーションを保護するためのフレームワークを提供することができる。
最初のコントリビューションはセキュリティステアビリティの定義です - LLMの新たなセキュリティ対策であり、システムプロンプトで定義された厳格なガードレールに従うモデルの能力を評価します。
第2のコントリビューションは、VeganRibsと呼ばれる新しいベンチマークを利用して、LLMのセキュリティステアビリティを測定する手法です。
論文 参考訳(メタデータ) (2025-04-28T06:40:01Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Transforming Computer Security and Public Trust Through the Exploration of Fine-Tuning Large Language Models [0.0]
Mallasは、大きな言語モデル(LLM)を悪用する悪意のあるサービスである。
本稿では,様々な事前学習言語モデルとその効率と脆弱性を検証し,Mallasの増殖について考察する。
論文 参考訳(メタデータ) (2024-06-02T06:10:31Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing
Security in Large Language Models [3.9490749767170636]
大規模言語モデル(LLM)は、テキスト生成、翻訳、質問応答タスクに革命をもたらした。
広く使われているにもかかわらず、LLMはモデルに不適切な反応を強いられる場合の倫理的ジレンマのような課題を提示している。
本稿では,1)ユーザ入力からセンシティブな語彙をフィルタリングして非倫理的応答を防ぐ,2)"プライソンブレイク"シナリオにつながる可能性のあるインタラクションを停止するロールプレイングを検出する,4)マルチモデル大規模言語モデル(MLLM)のような様々なLLM派生語に拡張する,という課題に対処する。
論文 参考訳(メタデータ) (2024-01-27T08:09:33Z) - Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。