Fugu-MT 論文翻訳(概要): TorchOpera: A Compound AI System for LLM Safety

論文の概要: TorchOpera: A Compound AI System for LLM Safety

arxiv url: http://arxiv.org/abs/2406.10847v1
Date: Sun, 16 Jun 2024 08:39:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 20:31:44.385978
Title: TorchOpera: A Compound AI System for LLM Safety
Title（参考訳）: TorchOpera: LLM安全性のための複合AIシステム
Authors: Shanshan Han, Yuhang Yao, Zijian Hu, Dimitris Stripelis, Zhaozhuo Xu, Chaoyang He,
Abstract要約: 本稿では,大規模言語モデルにおけるプロンプトと応答の安全性と品質を向上させる複合AIシステムであるTorchOperaを紹介する。 TorchOperaは、すべてのユーザプロンプトが安全で、コンテキスト的にグラウンディングされ、効果的に処理されていることを保証します。
参考スコア（独自算出の注目度）: 14.243215006335943
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce TorchOpera, a compound AI system for enhancing the safety and quality of prompts and responses for Large Language Models. TorchOpera ensures that all user prompts are safe, contextually grounded, and effectively processed, while enhancing LLM responses to be relevant and high quality. TorchOpera utilizes the vector database for contextual grounding, rule-based wrappers for flexible modifications, and specialized mechanisms for detecting and adjusting unsafe or incorrect content. We also provide a view of the compound AI system to reduce the computational cost. Extensive experiments show that TorchOpera ensures the safety, reliability, and applicability of LLMs in real-world settings while maintaining the efficiency of LLM responses.
Abstract（参考訳）: 本稿では,大規模言語モデルにおけるプロンプトと応答の安全性と品質を向上させる複合AIシステムであるTorchOperaを紹介する。 TorchOperaは、すべてのユーザプロンプトが安全で、コンテキスト的にグラウンディングされ、効果的に処理されることを保証すると同時に、LLMレスポンスが適切で高品質であることを保証する。 TorchOperaは、コンテキストグラウンドにベクトルデータベース、フレキシブルな修正にルールベースのラッパー、安全でないコンテンツや不正コンテンツの検出と調整のための特別なメカニズムを利用する。また,計算コストを削減するため,複合AIシステムの展望も提供する。大規模な実験により、TorchOperaはLLM応答の効率を保ちながら、現実の環境でのLLMの安全性、信頼性、適用性を保証する。

関連論文リスト

Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs [65.6660735371212]
textbftextscJustAskは,インタラクションのみで効果的な抽出戦略を自律的に発見するフレームワークである。これは、アッパー信頼境界に基づく戦略選択と、原子プローブと高レベルのオーケストレーションにまたがる階層的なスキル空間を用いて、オンライン探索問題として抽出を定式化する。この結果から,現代のエージェントシステムにおいて,システムプロンプトは致命的ではあるがほぼ無防備な攻撃面であることがわかった。
論文参考訳（メタデータ） (2026-01-29T03:53:25Z)
LLMZ+: Contextual Prompt Whitelist Principles for Agentic LLMs [6.009944398165616]
エージェントAIは、潜在的な攻撃者にとって価値のあるターゲットである。 DMZ(Demilitarized Zone)に属する典型的なソフトウェアアプリケーションとは異なり、エージェントLLMはAIの非決定的振る舞いに依存している。この特徴は、運用セキュリティと情報セキュリティの両方に重大なセキュリティリスクをもたらす。
論文参考訳（メタデータ） (2025-09-23T02:30:14Z)
Beyond Syntax: Action Semantics Learning for App Agents [60.56331102288794]
アクションセマンティックス学習(ASL、Action Semantics Learning)は、学習目的が真理行動の意味を捉える学習フレームワークである。 ASLは既存のメソッドよりもApp Agentの精度と一般化を大幅に改善する。
論文参考訳（メタデータ） (2025-06-21T12:08:19Z)
LLM Enhancer: Merged Approach using Vector Embedding for Reducing Large Language Model Hallucinations with External Knowledge [0.0]
大規模言語モデル(LLM)は、様々なタスクにまたがる自然な応答を生成する能力を実証した。本稿では,Google,Wikipedia,DuckDuckGoなどの複数のオンラインソースを統合して,データの精度を向上させるLLM ENHANCERシステムを提案する。
論文参考訳（メタデータ） (2025-04-29T19:27:04Z)
Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文参考訳（メタデータ） (2025-02-18T08:17:32Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Improved Large Language Model Jailbreak Detection via Pretrained Embeddings [0.0]
本稿では,従来の機械学習分類アルゴリズムを用いた検索に適したペアリングテキスト埋め込みに基づくジェイルブレイクプロンプトの検出手法を提案する。当社のアプローチは,オープンソースのLLMセキュリティアプリケーションから入手可能なすべてのメソッドを上回ります。
論文参考訳（メタデータ） (2024-12-02T14:35:43Z)
Universal and Context-Independent Triggers for Precise Control of LLM Outputs [6.390542864765991]
大規模言語モデル(LLM)は、自動コンテンツ生成や重要な意思決定システムといったアプリケーションで広く採用されている。勾配に基づくホワイトボックス攻撃技術の最近の進歩は、ジェイルブレイクやシステムプロンプトリークといったタスクにおいて有望であることを示している。そこで本研究では,このようなトリガを効果的に発見し,攻撃の有効性を評価する手法を提案する。
論文参考訳（メタデータ） (2024-11-22T05:17:18Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文参考訳（メタデータ） (2024-06-14T19:24:00Z)
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。 GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文参考訳（メタデータ） (2024-06-13T14:49:26Z)
When Large Language Models Meet Optical Networks: Paving the Way for Automation [17.4503217818141]
物理層をインテリジェントに制御し,アプリケーション層との相互作用を効果的に行うことを目的として,LLMを利用した光ネットワークのフレームワークを提案する。提案手法は,ネットワークアラーム解析とネットワーク性能最適化の2つの典型的なタスクで検証される。良好な応答精度と2,400個のテスト状況のセマティックな類似性は、光ネットワークにおけるLLMの大きな可能性を示している。
論文参考訳（メタデータ） (2024-05-14T10:46:33Z)
Detecting Phishing Sites Using ChatGPT [2.3999111269325266]
本稿では,大規模言語モデル(LLM)を用いてフィッシングサイトを検出するChatPhishDetectorという新しいシステムを提案する。本システムでは,Webクローラを利用してWebサイトから情報を収集し,クローリングデータに基づいてLLMのプロンプトを生成し,LLMが生成した応答から検出結果を取得する。 GPT-4Vを用いた実験結果は、98.7%の精度と99.6%のリコールで優れた性能を示し、他のLLMや既存のシステムよりも優れていた。
論文参考訳（メタデータ） (2023-06-09T11:30:08Z)
Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。 1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文参考訳（メタデータ） (2023-05-31T10:08:37Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。