論文の概要: Trust-Oriented Adaptive Guardrails for Large Language Models
- arxiv url: http://arxiv.org/abs/2408.08959v2
- Date: Mon, 03 Feb 2025 16:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 15:57:53.139094
- Title: Trust-Oriented Adaptive Guardrails for Large Language Models
- Title(参考訳): 大規模言語モデルのための信頼指向型適応ガードレール
- Authors: Jinwei Hu, Yi Dong, Xiaowei Huang,
- Abstract要約: ガードレールは、有害または有害な応答を抑えることで、大きな言語モデル(LLM)が人間の価値と整合することを保証するように設計されている。
既存のガードレールには、さまざまなユーザグループのニーズを満たすための、十分に確立された方法論が欠如している。
ユーザ信頼度に基づいて,機密コンテンツへの動的アクセスを適度に行うための適応ガードレール機構を導入する。
- 参考スコア(独自算出の注目度): 9.719986610417441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guardrail, an emerging mechanism designed to ensure that large language models (LLMs) align with human values by moderating harmful or toxic responses, requires a sociotechnical approach in their design. This paper addresses a critical issue: existing guardrails lack a well-founded methodology to accommodate the diverse needs of different user groups, particularly concerning access rights. Supported by trust modeling (primarily on `social' aspect) and enhanced with online in-context learning via retrieval-augmented generation (on `technical' aspect), we introduce an adaptive guardrail mechanism, to dynamically moderate access to sensitive content based on user trust metrics. User trust metrics, defined as a novel combination of direct interaction trust and authority-verified trust, enable the system to precisely tailor the strictness of content moderation by aligning with the user's credibility and the specific context of their inquiries. Our empirical evaluation demonstrates the effectiveness of the adaptive guardrail in meeting diverse user needs, outperforming existing guardrails while securing sensitive information and precisely managing potentially hazardous content through a context-aware knowledge base. To the best of our knowledge, this work is the first to introduce trust-oriented concept into a guardrail system, offering a scalable solution that enriches the discourse on ethical deployment for next-generation LLM service.
- Abstract(参考訳): Guardrailは、大きな言語モデル(LLM)が有害または有害な応答を抑えることによって人間の価値と整合することを保証するために設計された、新たなメカニズムである。
既存のガードレールには,様々なユーザグループ,特にアクセス権に関する多様なニーズに対応するための,十分に確立された方法論が欠如している。
信頼モデリング(主に「社会的」な側面)によって支援され、検索強化世代(「技術的」な側面)によるオンライン・インコンテキスト・ラーニングにより強化され、ユーザ信頼度に基づくセンシティブなコンテンツへのアクセスを動的に緩和する適応ガードレール機構が導入される。
ユーザ信頼度は、ダイレクトインタラクション信頼と権限確認信頼の新たな組み合わせとして定義され、ユーザの信頼性と質問の特定のコンテキストに合わせることで、コンテンツモデレーションの厳密さを正確に調整することができる。
経験的評価は, 多様なユーザニーズを満たすための適応ガードレールの有効性を実証し, 既存のガードレールより優れ, センシティブな情報を確保し, コンテキスト認識の知識ベースを通じて潜在的に有害なコンテンツを正確に管理する。
我々の知る限りでは、この研究は、信頼指向の概念をガードレールシステムに導入する最初の試みであり、次世代LLMサービスの倫理的展開に関する談話を強化するスケーラブルなソリューションを提供する。
関連論文リスト
- Epistemic Alignment: A Mediating Framework for User-LLM Knowledge Delivery [17.23286832909591]
本稿では,哲学文献から得られた知識の伝達に関する10の課題を提案する。
ユーザはそれぞれの課題に対処するための回避策を開発しています。
AI開発者にとって、Epistemic Alignment Frameworkは、知識に対する多様なアプローチをサポートするための具体的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-04-01T21:38:12Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [333.9220561243189]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。
彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。
本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-20T06:20:36Z) - A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection [0.0]
大規模言語モデルは、ユーザーがこれらのモデルに意図した範囲を超えてタスクを実行するよう促すような、オフトピー的な誤用をしがちである。
現行のガードレールは、高い偽陽性率、限られた適応性、およびプレプロダクションでは利用できない実世界のデータを必要とする非現実性に悩まされている。
本稿では,これらの課題に対処するフレキシブルでデータフリーなガードレール開発手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T00:31:23Z) - Unveiling User Preferences: A Knowledge Graph and LLM-Driven Approach for Conversational Recommendation [55.5687800992432]
本稿では,Large Language Models (LLMs) とKGs (KGs) を相乗化するプラグイン・アンド・プレイフレームワークを提案する。
これにより、LLMはKGエンティティを簡潔な自然言語記述に変換することができ、ドメイン固有の知識を理解できるようになる。
論文 参考訳(メタデータ) (2024-11-16T11:47:21Z) - Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文 参考訳(メタデータ) (2024-11-04T08:36:03Z) - CURATe: Benchmarking Personalised Alignment of Conversational AI Assistants [5.7605009639020315]
5つのシナリオ(いずれも337のユースケース)にわたる10の先行モデルの評価
主要な障害モードには、矛盾する好みの適切な重み付け、症状、コンテキストウィンドウ内の重要なユーザ情報に対する注意力の欠如、ユーザ固有の知識の一貫性のない適用が含まれる。
本稿では,AIアシスタントに自己回帰機能,オンラインユーザモデリング,動的リスク評価を組み込むための研究指針を提案する。
論文 参考訳(メタデータ) (2024-10-28T15:59:31Z) - Trustworthy AI: Securing Sensitive Data in Large Language Models [0.0]
大規模言語モデル(LLM)は、堅牢なテキスト生成と理解を可能にすることで自然言語処理(NLP)を変革した。
本稿では, 機密情報の開示を動的に制御するために, 信頼機構をLCMに組み込むための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-26T19:02:33Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Towards More Trustworthy and Interpretable LLMs for Code through Syntax-Grounded Explanations [48.07182711678573]
ASTrustは、モデル信頼度とプログラミング言語の構文構造の関係に基づく説明を生成する。
ASTからの構文構造のシーケンス, 熱マップ, グラフに基づく可視化を重畳した, モデル信頼度スコアを自動可視化する。
論文 参考訳(メタデータ) (2024-07-12T04:38:28Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - RELIC: Investigating Large Language Model Responses using Self-Consistency [58.63436505595177]
LLM(Large Language Models)は、フィクションと事実を混同し、幻覚として知られる非事実コンテンツを生成することで有名である。
本稿では,ユーザが生成したテキストの信頼性を把握できる対話型システムを提案する。
論文 参考訳(メタデータ) (2023-11-28T14:55:52Z) - A Systematic Literature Review of User Trust in AI-Enabled Systems: An
HCI Perspective [0.0]
人工知能(AI)のユーザ信頼は、採用を促進する重要な要素として、ますます認識され、証明されてきている。
本総説は, ユーザ信頼の定義, 影響要因, 測定方法の概要を, 実証研究23件から明らかにすることを目的としている。
論文 参考訳(メタデータ) (2023-04-18T07:58:09Z) - Designing for Responsible Trust in AI Systems: A Communication
Perspective [56.80107647520364]
我々は、MATCHと呼ばれる概念モデルを開発するために、技術に対する信頼に関するコミュニケーション理論と文献から引き出す。
私たちは、AIシステムの能力として透明性とインタラクションを強調します。
我々は、技術クリエーターが使用する適切な方法を特定するのに役立つ要件のチェックリストを提案する。
論文 参考訳(メタデータ) (2022-04-29T00:14:33Z) - Intent Contrastive Learning for Sequential Recommendation [86.54439927038968]
ユーザの意図を表現するために潜伏変数を導入し,クラスタリングにより潜伏変数の分布関数を学習する。
我々は,学習意図を対照的なSSLによってSRモデルに活用し,シーケンスのビューとそれに対応するインテントとの一致を最大化することを提案する。
4つの実世界のデータセットで実施された実験は、提案した学習パラダイムの優位性を示している。
論文 参考訳(メタデータ) (2022-02-05T09:24:13Z) - Personalized multi-faceted trust modeling to determine trust links in
social media and its potential for misinformation management [61.88858330222619]
ソーシャルメディアにおけるピア間の信頼関係を予測するためのアプローチを提案する。
本稿では,データ駆動型多面信頼モデルを提案する。
信頼を意識したアイテムレコメンデーションタスクで説明され、提案したフレームワークを大規模なYelpデータセットのコンテキストで評価する。
論文 参考訳(メタデータ) (2021-11-11T19:40:51Z) - RoFL: Attestable Robustness for Secure Federated Learning [59.63865074749391]
フェデレートラーニング(Federated Learning)により、多数のクライアントが、プライベートデータを共有することなく、ジョイントモデルをトレーニングできる。
クライアントのアップデートの機密性を保証するため、フェデレートラーニングシステムはセキュアなアグリゲーションを採用している。
悪意のあるクライアントに対する堅牢性を向上させるセキュアなフェデレート学習システムであるRoFLを提案する。
論文 参考訳(メタデータ) (2021-07-07T15:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。