論文の概要: Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models?
- arxiv url: http://arxiv.org/abs/2404.01399v3
- Date: Mon, 1 Jul 2024 17:40:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 14:39:26.690765
- Title: Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models?
- Title(参考訳): 安全かつ責任のある大言語モデル : 大言語モデルにおけるバイアス削減と言語理解のバランスがとれるか?
- Authors: Shaina Raza, Oluwanifemi Bamgbose, Shardul Ghuge, Fatemeh Tavakol, Deepak John Reji, Syed Raza Bashir,
- Abstract要約: 大規模言語モデルからバイアスのないアウトプットを生成するための現在のアプローチは、バイアスを減らすことができるが、知識の保持を犠牲にしている。
我々は、生成されたテキストのバイアスを減らすために、安全性と応答性大言語モデル(textbfSR$_textLLM$)を開発した。
textbfSR$textLLM$は、バイアスの低減と言語知識の整合性維持の両面において、従来の微調整手法よりも優れていることを確認した。
- 参考スコア(独自算出の注目度): 2.089112028396727
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have significantly advanced various NLP tasks. However, these models often risk generating unsafe text that perpetuates biases. Current approaches to produce unbiased outputs from LLMs can reduce biases but at the expense of knowledge retention. In this research, we address the question of whether producing safe (unbiased) outputs through LLMs can retain knowledge and language understanding. In response, we developed the Safety and Responsible Large Language Model (\textbf{SR}$_{\text{LLM}}$), an LLM that has been instruction fine-tuned on top of already safe LLMs (e.g., Llama2 or related) to diminish biases in generated text. To achieve our goals, we compiled a specialized dataset designed to train our model in identifying and correcting biased text. We conduct experiments, both on this custom data and out-of-distribution test sets, to show the bias reduction and knowledge retention. The results confirm that \textbf{SR}$_{\text{LLM}}$ outperforms traditional fine-tuning and prompting methods in both reducing biases and preserving the integrity of language knowledge. The significance of our findings lies in demonstrating that instruction fine-tuning can provide a more robust solution for bias reduction in LLMs. We have made our code and data available at \href{https://github.com/shainarazavi/Safe-Responsible-LLM}{Safe-LLM}.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なNLPタスクを大幅に進歩させた。
しかしながら、これらのモデルはしばしばバイアスを持続する安全でないテキストを生成するリスクを負う。
LLMからバイアスのない出力を生成するための現在のアプローチは、バイアスを減らすことができるが、知識の保持を犠牲にしている。
本研究では,LLMによる安全(偏りのない)アウトプットの生成が,知識と言語理解を維持できるかどうかという課題に対処する。
そこで我々は,すでに安全であるLLM(例えば Llama2 など)上に微調整を施した LLM (\textbf{SR}$_{\text{LLM}}$)を開発した。
目標を達成するために、偏りのあるテキストの識別と修正において、モデルをトレーニングするために設計された特別なデータセットをコンパイルしました。
我々は,このカスタムデータとアウト・オブ・ディストリビューションテストセットを用いて,バイアス低減と知識保持を示す実験を行う。
結果は、従来の微調整や、バイアスの低減と言語知識の整合性維持の両面において、より優れた性能を発揮することを確認した。
本研究の意義は,命令の微調整がLLMのバイアス低減に有効であることを示すことである。
コードとデータは \href{https://github.com/shainarazavi/Safe-Responsible-LLM}{Safe-LLM} で公開しています。
関連論文リスト
- Course-Correction: Safety Alignment Using Synthetic Preferences [17.897817682322053]
定量的評価のためのtextscC$2$-Eval ベンチマークを導入し,10のポピュラー言語モデルを解析する。
自動パイプラインを使用して、750Kペアの好みを持つ合成データセットであるtextscC$2$-Synを作成する。
2つのLLM, textscLlama2-Chat 7B と textscQwen2 7B の実験により, 一般性能に影響を与えることなく, 効果的にコース補正能力を向上させることができた。
論文 参考訳(メタデータ) (2024-07-23T16:54:28Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た
我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文 参考訳(メタデータ) (2024-02-26T07:58:12Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。
その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。