Fugu-MT 論文翻訳(概要): Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models?

論文の概要: Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models?

arxiv url: http://arxiv.org/abs/2404.01399v5
Date: Sun, 05 Jan 2025 22:23:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:49.233816
Title: Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models?
Title（参考訳）: 安全かつ責任のある大規模言語モデルの開発 : 大規模言語モデルにおけるバイアス削減と言語理解のバランスをとることができるか?
Authors: Shaina Raza, Oluwanifemi Bamgbose, Shardul Ghuge, Fatemeh Tavakol, Deepak John Reji, Syed Raza Bashir,
Abstract要約: 本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。 Safe and Responsible Large Language Model (textbfSR$_textLLM$)を紹介する。 textbfSR$_textLLM$は知識の整合性を保ちながらバイアスを効果的に軽減する。
参考スコア（独自算出の注目度）: 2.089112028396727
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have advanced various Natural Language Processing (NLP) tasks, such as text generation and translation, among others. However, these models often generate texts that can perpetuate biases. Existing approaches to mitigate these biases usually compromise knowledge retention. This study explores whether LLMs can produce safe, unbiased outputs without sacrificing knowledge or comprehension. We introduce the Safe and Responsible Large Language Model (\textbf{SR}$_{\text{LLM}}$), which has been instruction fine-tuned atop of a safe fine-tuned auto-regressive decoder-only LLM to reduce biases in generated texts. We developed a specialized dataset with examples of unsafe and corresponding safe variations to train \textbf{SR}$_{\text{LLM}}$ to identify and correct biased text. Experiments on our specialized dataset and out-of-distribution test sets reveal that \textbf{SR}$_{\text{LLM}}$ effectively reduces biases while preserving knowledge integrity. This performance surpasses that of traditional fine-tuning of smaller language models and base LLMs that merely reply on prompting techniques. Our findings demonstrate that instruction fine-tuning on custom datasets tailored for tasks such as debiasing is a highly effective strategy for minimizing bias in LLM while preserving their inherent knowledge and capabilities. The code and dataset are accessible at \href{https://github.com/shainarazavi/Safe-Responsible-LLM}{SR-LLM}
Abstract（参考訳）: 大規模言語モデル(LLM)は、テキスト生成や翻訳など、様々な自然言語処理(NLP)タスクを進化させてきた。しかし、これらのモデルはしばしばバイアスを持続できるテキストを生成する。これらのバイアスを軽減する既存のアプローチは、通常、知識の保持を損なう。本研究では,LLMが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを検討する。安全かつ応答性の高い大規模言語モデル (\textbf{SR}$_{\text{LLM}}$) を導入する。我々は、安全でない、かつそれに対応する安全なバリエーションの例を使って特別なデータセットを開発し、バイアス付きテキストを識別し、修正するために、textbf{SR}$_{\text{LLM}}$をトレーニングした。特殊なデータセットとアウト・オブ・ディストリビューションテストセットの実験から,知識の整合性を維持しながらバイアスを効果的に低減できることが判明した。このパフォーマンスは、より小さな言語モデルと、単にプロンプト技術に応答するだけのベースLLMの、従来の微調整よりも優れています。本研究は,LLMにおけるバイアスを最小限に抑えつつ,その固有の知識と能力を保ちながら,デバイアスなどのタスクに適したカスタムデータセットの微調整が,LLMのバイアスを最小化するための極めて効果的な戦略であることを実証した。コードとデータセットは \href{https://github.com/shainarazavi/Safe-Responsible-LLM}{SR-LLM} でアクセス可能である。

関連論文リスト

Bi-directional Bias Attribution: Debiasing Large Language Models without Modifying Prompts [29.864293711943038]
本研究では, 言語モデルにおいて, ステレオタイプ誘導語を検出し, ニューロンレベルのバイアスをもたらすフレームワークを提案する。本フレームワークはまず, 集団間の比較分析により, ステレオタイプ誘導形容詞と名詞を識別する。 3つの LLM 実験により,本手法はモデル全体の性能を保ちながらバイアスを効果的に低減することを示した。
論文参考訳（メタデータ） (2026-02-04T10:27:36Z)
Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文参考訳（メタデータ） (2025-06-20T13:21:14Z)
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文参考訳（メタデータ） (2025-04-14T09:03:51Z)
Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T14:53:49Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Extracting Memorized Training Data via Decomposition [24.198975804570072]
本稿では,2つのフロンティア大言語モデルからニュース記事を抽出する,簡単なクエリベースの分解手法を示す。 73項目から少なくとも1文を抽出し,6項目から20%以上の動詞文を抽出した。大規模に複製可能であれば、このトレーニングデータ抽出手法は、新たなLLMセキュリティと安全性の脆弱性を公開する可能性がある。
論文参考訳（メタデータ） (2024-09-18T23:59:32Z)
Course-Correction: Safety Alignment Using Synthetic Preferences [17.897817682322053]
定量的評価のためのtextscC$2$-Eval ベンチマークを導入し,10のポピュラー言語モデルを解析する。自動パイプラインを使用して、750Kペアの好みを持つ合成データセットであるtextscC$2$-Synを作成する。 2つのLLM, textscLlama2-Chat 7B と textscQwen2 7B の実験により, 一般性能に影響を与えることなく, 効果的にコース補正能力を向上させることができた。
論文参考訳（メタデータ） (2024-07-23T16:54:28Z)
Robustness of LLMs to Perturbations in Text [2.0670689746336]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか? この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文参考訳（メタデータ） (2024-07-12T04:50:17Z)
$\orall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文参考訳（メタデータ） (2024-03-27T08:08:00Z)
Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文参考訳（メタデータ） (2024-03-26T06:57:23Z)
TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文参考訳（メタデータ） (2024-02-26T07:58:12Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文参考訳（メタデータ） (2023-10-20T09:55:06Z)
On the Safety of Open-Sourced Large Language Models: Does Alignment Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文参考訳（メタデータ） (2023-10-02T19:22:01Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)
TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文参考訳（メタデータ） (2023-07-10T08:15:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。