論文の概要: JurEE not Judges: safeguarding llm interactions with small, specialised Encoder Ensembles
- arxiv url: http://arxiv.org/abs/2410.08442v2
- Date: Mon, 14 Oct 2024 09:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:16:22.917258
- Title: JurEE not Judges: safeguarding llm interactions with small, specialised Encoder Ensembles
- Title(参考訳): JurEE not judges:Safeguarding llm interaction with small, specialated Encoder Ensembles
- Authors: Dom Nasrabadi,
- Abstract要約: JurEEは、効率的なエンコーダのみのトランスフォーマーモデルのアンサンブルである。
様々な主要なリスクに対する確率的リスク推定を提供する。
特に、厳格なコンテンツモデレーションを必要とするアプリケーションに適している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce JurEE, an ensemble of efficient, encoder-only transformer models designed to strengthen safeguards in AI-User interactions within LLM-based systems. Unlike existing LLM-as-Judge methods, which often struggle with generalization across risk taxonomies and only provide textual outputs, JurEE offers probabilistic risk estimates across a wide range of prevalent risks. Our approach leverages diverse data sources and employs progressive synthetic data generation techniques, including LLM-assisted augmentation, to enhance model robustness and performance. We create an in-house benchmark comprising of other reputable benchmarks such as the OpenAI Moderation Dataset and ToxicChat, where we find JurEE significantly outperforms baseline models, demonstrating superior accuracy, speed, and cost-efficiency. This makes it particularly suitable for applications requiring stringent content moderation, such as customer-facing chatbots. The encoder-ensemble's modular design allows users to set tailored risk thresholds, enhancing its versatility across various safety-related applications. JurEE's collective decision-making process, where each specialized encoder model contributes to the final output, not only improves predictive accuracy but also enhances interpretability. This approach provides a more efficient, performant, and economical alternative to traditional LLMs for large-scale implementations requiring robust content moderation.
- Abstract(参考訳): 我々は、LLMシステム内のAI-ユーザインタラクションの保護を強化するために設計された、効率的なエンコーダのみのトランスフォーマーモデルの集合であるJurEEを紹介する。
LLM-as-Judgeの既存の手法とは異なり、リスク分類の一般化に苦慮し、テキスト出力のみを提供するのに対し、JurEEは広範囲の一般的なリスクに対する確率的リスク推定を提供する。
提案手法は,多種多様なデータソースを活用し,LLM支援強化を含む漸進的な合成データ生成技術を用いて,モデルロバスト性と性能を向上させる。
私たちは、OpenAI Moderation DatasetやToxicChatといった他の計算可能なベンチマークで構成された社内ベンチマークを作成し、JurEEがベースラインモデルを大幅に上回っており、精度、速度、コスト効率が優れています。
これは、顧客向けチャットボットのような厳しいコンテンツモデレーションを必要とするアプリケーションに特に適している。
エンコーダ・アンサンブルのモジュラー設計により、ユーザーはカスタマイズされたリスク閾値を設定することができ、様々な安全関連アプリケーションにまたがる汎用性を高めることができる。
JurEEの集合的意思決定プロセスでは、それぞれの特殊なエンコーダモデルが最終的な出力に寄与する。
このアプローチは、ロバストなコンテンツモデレーションを必要とする大規模実装に対して、従来のLLMよりも効率的で、パフォーマンスが高く、経済的に代替手段を提供する。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - eFedLLM: Efficient LLM Inference Based on Federated Learning [1.6179784294541053]
大言語モデル(LLMs)は人工知能(AI)の転換期を告げる
本稿では, LLM推論の運用効率と費用対効果を高める効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-11-24T22:50:02Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Large Language Model as a Catalyst: A Paradigm Shift in Base Station Siting Optimization [62.16747639440893]
大規模言語モデル(LLM)とその関連技術は、特に迅速な工学とエージェント工学の領域において進歩している。
提案するフレームワークは、検索拡張生成(RAG)を組み込んで、ドメイン固有の知識を取得してソリューションを生成するシステムの能力を高める。
論文 参考訳(メタデータ) (2024-08-07T08:43:32Z) - Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts [49.950419707905944]
本稿では,モノリシックLLMを,自己専門化の専門家による構成的,モジュール的なシステムに変換するアプローチであるSelf-MoEを紹介する。
提案手法は, 自己生成合成データを用いて, 専門家モジュールを構成する自己特殊化を利用する。
本研究は, モジュール性の重要性, マルチベースLCMへの適用性, 効率的でスケーラブルで適応可能なシステムの実現における自己改善の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-17T19:06:54Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。