論文の概要: JurEE not Judges: safeguarding llm interactions with small, specialised Encoder Ensembles
- arxiv url: http://arxiv.org/abs/2410.08442v1
- Date: Mon, 14 Oct 2024 09:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:16:22.981641
- Title: JurEE not Judges: safeguarding llm interactions with small, specialised Encoder Ensembles
- Title(参考訳): JurEE not judges:Safeguarding llm interaction with small, specialated Encoder Ensembles
- Authors: Dom Nasrabadi,
- Abstract要約: JurEEは、効率的なエンコーダのみのトランスフォーマーモデルのアンサンブルである。
様々な主要なリスクに対する確率的リスク推定を提供する。
特に、厳格なコンテンツモデレーションを必要とするアプリケーションに適している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce JurEE, an ensemble of efficient, encoder-only transformer models designed to strengthen safeguards in AI-User interactions within LLM-based systems. Unlike existing LLM-as-Judge methods, which often struggle with generalization across risk taxonomies and only provide textual outputs, JurEE offers probabilistic risk estimates across a wide range of prevalent risks. Our approach leverages diverse data sources and employs progressive synthetic data generation techniques, including LLM-assisted augmentation, to enhance model robustness and performance. We create an in-house benchmark comprising of other reputable benchmarks such as the OpenAI Moderation Dataset and ToxicChat, where we find JurEE significantly outperforms baseline models, demonstrating superior accuracy, speed, and cost-efficiency. This makes it particularly suitable for applications requiring stringent content moderation, such as customer-facing chatbots. The encoder-ensemble's modular design allows users to set tailored risk thresholds, enhancing its versatility across various safety-related applications. JurEE's collective decision-making process, where each specialized encoder model contributes to the final output, not only improves predictive accuracy but also enhances interpretability. This approach provides a more efficient, performant, and economical alternative to traditional LLMs for large-scale implementations requiring robust content moderation.
- Abstract(参考訳): 我々は、LLMシステム内のAI-ユーザインタラクションの保護を強化するために設計された、効率的なエンコーダのみのトランスフォーマーモデルの集合であるJurEEを紹介する。
LLM-as-Judgeの既存の手法とは異なり、リスク分類の一般化に苦慮し、テキスト出力のみを提供するのに対し、JurEEは広範囲の一般的なリスクに対する確率的リスク推定を提供する。
提案手法は,多種多様なデータソースを活用し,LLM支援強化を含む漸進的な合成データ生成技術を用いて,モデルロバスト性と性能を向上させる。
私たちは、OpenAI Moderation DatasetやToxicChatといった他の計算可能なベンチマークで構成された社内ベンチマークを作成し、JurEEがベースラインモデルを大幅に上回っており、精度、速度、コスト効率が優れています。
これは、顧客向けチャットボットのような厳しいコンテンツモデレーションを必要とするアプリケーションに特に適している。
エンコーダ・アンサンブルのモジュラー設計により、ユーザーはカスタマイズされたリスク閾値を設定することができ、様々な安全関連アプリケーションにまたがる汎用性を高めることができる。
JurEEの集合的意思決定プロセスでは、それぞれの特殊なエンコーダモデルが最終的な出力に寄与する。
このアプローチは、ロバストなコンテンツモデレーションを必要とする大規模実装に対して、従来のLLMよりも効率的で、パフォーマンスが高く、経済的に代替手段を提供する。
関連論文リスト
- eFedLLM: Efficient LLM Inference Based on Federated Learning [1.6179784294541053]
大言語モデル(LLMs)は人工知能(AI)の転換期を告げる
本稿では, LLM推論の運用効率と費用対効果を高める効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-11-24T22:50:02Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Large Language Model Empowered Embedding Generator for Sequential Recommendation [57.49045064294086]
大言語モデル(LLM)は、その人気に関係なく、項目間の意味的関係を理解する能力を持つ。
LLMEmbは、LCMを利用してアイテム埋め込みを作成し、シークエンシャル・レコメンダ・システムの性能を高める革新的な技術である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - LLM-CI: Assessing Contextual Integrity Norms in Language Models [1.1715858161748576]
大規模言語モデル(LLM)は、社会的嗜好や規範を意図せずに符号化することができる。
これは、プロンプトの感度が$$$$小であることから特に困難である。
LLM-CIは、符号化された規範を評価するための最初のオープンソースフレームワークである。
論文 参考訳(メタデータ) (2024-09-05T17:50:31Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts [49.950419707905944]
本稿では,モノリシックLLMを,自己専門化の専門家による構成的,モジュール的なシステムに変換するアプローチであるSelf-MoEを紹介する。
提案手法は, 自己生成合成データを用いて, 専門家モジュールを構成する自己特殊化を利用する。
本研究は, モジュール性の重要性, マルチベースLCMへの適用性, 効率的でスケーラブルで適応可能なシステムの実現における自己改善の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-17T19:06:54Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。
本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。
本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用し、アライメント効率を著しく向上させるMoTEアーキテクチャについて紹介する。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。