Fugu-MT 論文翻訳(概要): Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

論文の概要: Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

arxiv url: http://arxiv.org/abs/2312.06674v1
Date: Thu, 7 Dec 2023 19:40:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 14:51:44.871596
Title: Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations
Title（参考訳）: Llama Guard: LLMベースのヒューマンAI会話のための入出力セーフガード
Authors: Hakan Inan, Kartikeya Upasani, Jianfeng Chi, Rashi Rungta, Krithika Iyer, Yuning Mao, Michael Tontchev, Qing Hu, Brian Fuller, Davide Testuggine, Madian Khabsa
Abstract要約: 我々は人間とAIの会話のユースケースを対象とした入出力保護モデルであるLlama Guardを紹介した。ラマガードは、特定の安全リスクを分類する貴重なツールである安全リスク分類を取り入れている。 Llama Guardは、OpenAIモデレーション評価データセットやToxicChatなど、既存のベンチマークで強力なパフォーマンスを示している。
参考スコア（独自算出の注目度）: 29.32704733570445
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Llama Guard, an LLM-based input-output safeguard model geared towards Human-AI conversation use cases. Our model incorporates a safety risk taxonomy, a valuable tool for categorizing a specific set of safety risks found in LLM prompts (i.e., prompt classification). This taxonomy is also instrumental in classifying the responses generated by LLMs to these prompts, a process we refer to as response classification. For the purpose of both prompt and response classification, we have meticulously gathered a dataset of high quality. Llama Guard, a Llama2-7b model that is instruction-tuned on our collected dataset, albeit low in volume, demonstrates strong performance on existing benchmarks such as the OpenAI Moderation Evaluation dataset and ToxicChat, where its performance matches or exceeds that of currently available content moderation tools. Llama Guard functions as a language model, carrying out multi-class classification and generating binary decision scores. Furthermore, the instruction fine-tuning of Llama Guard allows for the customization of tasks and the adaptation of output formats. This feature enhances the model's capabilities, such as enabling the adjustment of taxonomy categories to align with specific use cases, and facilitating zero-shot or few-shot prompting with diverse taxonomies at the input. We are making Llama Guard model weights available and we encourage researchers to further develop and adapt them to meet the evolving needs of the community for AI safety.
Abstract（参考訳）: 我々は,人間-ai会話のユースケースを対象としたllmベースの入出力安全ガードモデルであるllama guardを紹介する。 LLMプロンプト(即時分類)の特定の安全リスクを分類するための貴重なツールである安全リスク分類法を,本モデルに組み込んだ。この分類は、これらのプロンプトに対してllmsによって生成された応答を分類するのにも役立ちます。プロンプト分類と応答分類の両方のために,我々は,高品質なデータセットを慎重に収集した。 Llama2-7bモデルであるLlama Guardは、収集したデータセットを命令でチューニングするが、ボリュームが低く、OpenAIモデレーション評価データセットやToxicChatといった既存のベンチマークで強力なパフォーマンスを示している。 Llama Guardは言語モデルとして機能し、多クラス分類を実行し、バイナリ決定スコアを生成する。さらに、Llama Guardの命令の微調整により、タスクのカスタマイズと出力フォーマットの適応が可能になる。この機能は、特定のユースケースに合わせて分類カテゴリーの調整を可能にすることや、入力時に多様な分類語でゼロショットまたは少数ショットを促すことなど、モデルの能力を高める。私たちはLlama Guardモデルウェイトを利用可能にしており、AI安全のためのコミュニティの進化するニーズを満たすために、さらなる開発と適応を研究者に推奨しています。

関連論文リスト

Self-Regularization with Latent Space Explanations for Controllable LLM-based Classification [29.74457390987092]
大規模言語モデル(LLM)潜在空間における意図しない特徴を特定し,規則化する新しいフレームワークを提案する。本稿では,有毒なチャット検出,報酬モデリング,疾患診断を含む3つの実世界の課題に関する枠組みについて検討する。
論文参考訳（メタデータ） (2025-02-19T22:27:59Z)
Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文参考訳（メタデータ） (2025-02-11T08:05:56Z)
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection [0.0]
大規模言語モデルは、ユーザーがこれらのモデルに意図した範囲を超えてタスクを実行するよう促すような、オフトピー的な誤用をしがちである。現行のガードレールは、高い偽陽性率、限られた適応性、およびプレプロダクションでは利用できない実世界のデータを必要とする非現実性に悩まされている。本稿では,これらの課題に対処するフレキシブルでデータフリーなガードレール開発手法を提案する。
論文参考訳（メタデータ） (2024-11-20T00:31:23Z)
Class-RAG: Content Moderation with Retrieval Augmented Generation [15.298017013140385]
検索拡張生成(Class-RAG)を用いた分類手法を提案する。従来の微調整モデルと比較して、クラスRAGは意思決定の柔軟性と透明性を示している。以上の結果から,検索ライブラリのサイズによってクラスRAG性能が向上することが示唆され,ライブラリサイズの増加はコンテンツモデレーションを改善するための実用的で低コストなアプローチであることが示唆された。
論文参考訳（メタデータ） (2024-10-18T22:07:36Z)
Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-09-19T02:59:44Z)
ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文参考訳（メタデータ） (2024-07-31T17:48:14Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文参考訳（メタデータ） (2024-06-05T13:06:33Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)
Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文参考訳（メタデータ） (2023-02-22T17:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。