論文の概要: Adaptive Guardrails For Large Language Models via Trust Modeling and In-Context Learning
- arxiv url: http://arxiv.org/abs/2408.08959v1
- Date: Fri, 16 Aug 2024 18:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 23:26:14.948329
- Title: Adaptive Guardrails For Large Language Models via Trust Modeling and In-Context Learning
- Title(参考訳): 信頼モデリングと文脈学習による大規模言語モデルの適応ガードレール
- Authors: Jinwei Hu, Yi Dong, Xiaowei Huang,
- Abstract要約: ガードレールはLarge Language Model (LLM) の不可欠な部分となっている。
本研究は,信頼モデリングによって支援され,文脈内学習により強化された適応型ガードレール機構を提案する。
ダイレクト・インタラクション・トラストと権限認証・信頼の組み合わせを利用することで、コンテンツモデレーションの厳格さをユーザの信頼性に合わせるように正確に調整する。
- 参考スコア(独自算出の注目度): 9.719986610417441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guardrails have become an integral part of Large language models (LLMs), by moderating harmful or toxic response in order to maintain LLMs' alignment to human expectations. However, the existing guardrail methods do not consider different needs and access rights of individual users, and treat all the users with the same rule. This study introduces an adaptive guardrail mechanism, supported by trust modeling and enhanced with in-context learning, to dynamically modulate access to sensitive content based on user trust metrics. By leveraging a combination of direct interaction trust and authority-verified trust, the system precisely tailors the strictness of content moderation to align with the user's credibility and the specific context of their inquiries. Our empirical evaluations demonstrate that the adaptive guardrail effectively meets diverse user needs, outperforming existing guardrails in practicality while securing sensitive information and precisely managing potentially hazardous content through a context-aware knowledge base. This work is the first to introduce trust-oriented concept within a guardrail system, offering a scalable solution that enriches the discourse on ethical deployment for next-generation LLMs.
- Abstract(参考訳): ガードレールは、LLMを人間の期待に合わせるために有害または有害な応答を緩和することで、大型言語モデル(LLM)の不可欠な部分となっている。
しかし,既存のガードレール方式では個々のユーザのニーズやアクセス権は考慮されておらず,同じルールですべてのユーザを扱います。
本研究では,ユーザ信頼度に基づく機密コンテンツへのアクセスを動的に調整するために,信頼モデリングによって支援され,コンテキスト内学習により強化された適応型ガードレール機構を提案する。
ダイレクト・インタラクション・トラストと権限検証・トラストの組み合わせを利用することで、コンテンツモデレーションの厳格さを正確に調整し、ユーザの信頼性と質問の特定のコンテキストに合わせる。
実験により,適応ガードレールは多様なユーザニーズを効果的に満たし,機密情報を確保しつつ既存のガードレールの実用性を向上し,コンテキスト認識の知識ベースを通じて潜在的に有害なコンテンツを正確に管理することを示す。
この研究は、ガードレールシステムに信頼指向の概念を導入し、次世代LLMの倫理的展開に関する言説を豊かにするスケーラブルなソリューションを提供する。
関連論文リスト
- Towards More Trustworthy and Interpretable LLMs for Code through Syntax-Grounded Explanations [48.07182711678573]
ASTrustは、モデル信頼度とプログラミング言語の構文構造の関係に基づく説明を生成する。
ASTからの構文構造のシーケンス, 熱マップ, グラフに基づく可視化を重畳した, モデル信頼度スコアを自動可視化する。
論文 参考訳(メタデータ) (2024-07-12T04:38:28Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Out-Of-Context Prompting Boosts Fairness and Robustness in Large Language Model Predictions [17.758735680493917]
我々は,Frontier Large Language Modelsの信頼性を向上させるためのテストタイム戦略を開発する。
我々は因果性を利用して、LLMにおける信頼の2つの側面、すなわち公正性と堅牢性を公式にエンコードする。
文外処理により,フロンティアLLMの公平性と堅牢性は一貫して向上することを示す。
論文 参考訳(メタデータ) (2024-06-11T20:05:15Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - Enhancing Security in Federated Learning through Adaptive
Consensus-Based Model Update Validation [2.28438857884398]
本稿では,ラベルフリップ攻撃に対して,FL(Federated Learning)システムを構築するための高度なアプローチを提案する。
本稿では,適応的しきい値設定機構と統合されたコンセンサスに基づく検証プロセスを提案する。
以上の結果から,FLシステムのレジリエンスを高め,ラベルフリップ攻撃の顕著な緩和効果が示唆された。
論文 参考訳(メタデータ) (2024-03-05T20:54:56Z) - RELIC: Investigating Large Language Model Responses using Self-Consistency [58.63436505595177]
LLM(Large Language Models)は、フィクションと事実を混同し、幻覚として知られる非事実コンテンツを生成することで有名である。
本稿では,ユーザが生成したテキストの信頼性を把握できる対話型システムを提案する。
論文 参考訳(メタデータ) (2023-11-28T14:55:52Z) - Intent Contrastive Learning for Sequential Recommendation [86.54439927038968]
ユーザの意図を表現するために潜伏変数を導入し,クラスタリングにより潜伏変数の分布関数を学習する。
我々は,学習意図を対照的なSSLによってSRモデルに活用し,シーケンスのビューとそれに対応するインテントとの一致を最大化することを提案する。
4つの実世界のデータセットで実施された実験は、提案した学習パラダイムの優位性を示している。
論文 参考訳(メタデータ) (2022-02-05T09:24:13Z) - Personalized multi-faceted trust modeling to determine trust links in
social media and its potential for misinformation management [61.88858330222619]
ソーシャルメディアにおけるピア間の信頼関係を予測するためのアプローチを提案する。
本稿では,データ駆動型多面信頼モデルを提案する。
信頼を意識したアイテムレコメンデーションタスクで説明され、提案したフレームワークを大規模なYelpデータセットのコンテキストで評価する。
論文 参考訳(メタデータ) (2021-11-11T19:40:51Z) - RoFL: Attestable Robustness for Secure Federated Learning [59.63865074749391]
フェデレートラーニング(Federated Learning)により、多数のクライアントが、プライベートデータを共有することなく、ジョイントモデルをトレーニングできる。
クライアントのアップデートの機密性を保証するため、フェデレートラーニングシステムはセキュアなアグリゲーションを採用している。
悪意のあるクライアントに対する堅牢性を向上させるセキュアなフェデレート学習システムであるRoFLを提案する。
論文 参考訳(メタデータ) (2021-07-07T15:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。