Fugu-MT 論文翻訳(概要): Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models

論文の概要: Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models

arxiv url: http://arxiv.org/abs/2403.11838v2
Date: Sat, 23 Mar 2024 06:26:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 23:01:39.685532
Title: Ensuring Safe and High-Quality Outputs: A Guideline Library Approach for Language Models
Title（参考訳）: 安全と高品質のアウトプットの確保: 言語モデルに対するガイドラインライブラリアプローチ
Authors: Yi Luo, Zhenghao Lin, Yuhao Zhang, Jiashuo Sun, Chen Lin, Chengjin Xu, Xiangdong Su, Yelong Shen, Jian Guo, Yeyun Gong,
Abstract要約: 大きな言語モデル(LLM)は印象的な能力を示すだけでなく、バイアスのあるコンテンツ生成やプライバシの問題といったリスクも提示する。現在のアライメント手法の1つは原則駆動の統合であるが、手作業によるルールの不正確さに起因する課題に直面している。これらの課題に対処するための2段階のアプローチである Guide-Align を紹介します。
参考スコア（独自算出の注目度）: 48.9044202022435
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) exhibit impressive capabilities but also present risks such as biased content generation and privacy issues. One of the current alignment techniques includes principle-driven integration, but it faces challenges arising from the imprecision of manually crafted rules and inadequate risk perception in models without safety training. To address these, we introduce Guide-Align, a two-stage approach. Initially, a safety-trained model identifies potential risks and formulates specific guidelines for various inputs, establishing a comprehensive library of guidelines and a model for input-guidelines retrieval. Subsequently, the retrieval model correlates new inputs with relevant guidelines, which guide LLMs in response generation to ensure safe and high-quality outputs, thereby aligning with human values. An additional optional stage involves fine-tuning a model with well-aligned datasets generated through the process implemented in the second stage. Our method customizes guidelines to accommodate diverse inputs, thereby enhancing the fine-grainedness and comprehensiveness of the guideline library. Furthermore, it incorporates safety expertise from a safety-trained LLM through a lightweight retrieval model. We evaluate our approach on three benchmarks, demonstrating significant improvements in LLM security and quality. Notably, our fine-tuned model, Labrador, even at 13 billion parameters, outperforms GPT-3.5-turbo and surpasses GPT-4 in alignment capabilities.
Abstract（参考訳）: 大きな言語モデル(LLM)は印象的な能力を示すだけでなく、バイアスのあるコンテンツ生成やプライバシの問題といったリスクも提示する。現在のアライメント手法の1つは、原則駆動の統合を含んでいるが、手作業によるルールの不正確さと、安全トレーニングのないモデルにおけるリスク認識の不十分さから生じる課題に直面している。これらの問題に対処するために,2段階のアプローチである Guide-Align を導入する。当初、安全訓練モデルでは、潜在的なリスクを特定し、様々な入力に対して特定のガイドラインを定式化し、包括的なガイドラインライブラリと入力ガイド検索のモデルを構築した。その後、検索モデルは、新しい入力と関連するガイドラインを関連付け、LLMを応答生成に誘導し、安全で高品質な出力を保証し、人間の値と整合させる。追加のオプションステージでは、第2ステージで実装されたプロセスを通じて、適切に整列されたデータセットでモデルを微調整する。本手法は,多様な入力に対応するためのガイドラインをカスタマイズし,ガイドラインライブラリのきめ細かい粒度と包括性を向上する。さらに、軽量検索モデルにより、安全訓練されたLLMの安全性に関する専門知識を取り入れている。当社のアプローチを3つのベンチマークで評価し,LLMのセキュリティと品質の大幅な向上を実証した。特に、微調整されたモデルであるRaradorは、パラメータが13億であっても、GPT-3.5-turboより優れ、アライメント能力はGPT-4より優れています。

関連論文リスト

SafeSteer: Interpretable Safety Steering with Refusal-Evasion in LLMs [7.120986296945107]
本稿では,大規模言語モデル(LLM)の出力を誘導するSafeSteerという手法について検討する。テキストの品質,トピックの関連性,明示的な拒絶を保ちながら,安全ステアリングを高めるために,簡単な,勾配のない教師なしの手法を用いている。
論文参考訳（メタデータ） (2025-06-01T01:19:37Z)
ExpertSteer: Intervening in LLMs through Expert Knowledge [71.12193680015622]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。 3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文参考訳（メタデータ） (2025-05-18T08:55:46Z)
Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models [34.66687625996389]
汎用AIアシスタントの開発にはMLLM(Multimodal large language model)が不可欠である。差別、誤報、倫理基準違反などの望ましくない行動を防止するために、MLLMが安全に整列されていることをどうやって保証できるのか。安全性と安全性を共同で最適化する,初のマルチモーダル安全アライメントフレームワークであるSafe RLHF-Vを提案する。
論文参考訳（メタデータ） (2025-03-22T07:40:20Z)
Aegis2.0: A Diverse AI Safety Dataset and Risks Taxonomy for Alignment of LLM Guardrails [4.697160328460634]
大規模言語モデル(LLM)と生成AIが普及している。 LLM関連の安全リスクの完全なスペクトルに対処する、高品質で人間による注釈付きデータセットの欠如は明らかです。安全リスクを分類するための包括的かつ適応可能な分類法を提案する。
論文参考訳（メタデータ） (2025-01-15T18:37:08Z)
Active Learning for Robust and Representative LLM Generation in Safety-Critical Scenarios [32.16984263644299]
大きな言語モデル(LLM)は、安全対策のための貴重なデータを生成することができるが、しばしば分布バイアスを示す。 LLM生成を導くために,アクティブラーニングとクラスタリングを統合した新しいフレームワークを提案する。この結果から,提案フレームワークは,基礎となるデータ分布の事前知識を必要とせずに,より代表的な安全シナリオを生成できることが示唆された。
論文参考訳（メタデータ） (2024-10-14T21:48:14Z)
ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文参考訳（メタデータ） (2024-07-31T17:48:14Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations [29.32704733570445]
我々は人間とAIの会話のユースケースを対象とした入出力保護モデルであるLlama Guardを紹介した。ラマガードは、特定の安全リスクを分類する貴重なツールである安全リスク分類を取り入れている。 Llama Guardは、OpenAIモデレーション評価データセットやToxicChatなど、既存のベンチマークで強力なパフォーマンスを示している。
論文参考訳（メタデータ） (2023-12-07T19:40:50Z)
Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文参考訳（メタデータ） (2022-10-03T08:38:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。