論文の概要: Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis
- arxiv url: http://arxiv.org/abs/2310.10477v1
- Date: Mon, 16 Oct 2023 14:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 13:35:09.977893
- Title: Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis
- Title(参考訳): セットバックから知恵を得る - ミス分析による大規模言語モデルの整合
- Authors: Kai Chen, Chunwei Wang, Kuo Yang, Jianhua Han, Lanqing Hong, Fei Mi,
Hang Xu, Zhengying Liu, Wenyong Huang, Zhenguo Li, Dit-Yan Yeung, Lifeng
Shang, Xin Jiang, Qun Liu
- Abstract要約: 本研究では,誤り解析に根ざした新たなアライメント戦略を提案する。
大きな言語モデルを意図的に欠陥のある出力に公開し、内部の理由を完全に理解するために徹底的な評価を行う。
実験結果から,提案手法は従来のアライメント手法よりも優れた安全性が得られた。
- 参考スコア(独自算出の注目度): 127.85293480405082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) presents both
opportunities and challenges, particularly concerning unintentional generation
of harmful and toxic responses. While the traditional alignment methods strive
to steer LLMs towards desired performance and shield them from malicious
content, this study proposes a novel alignment strategy rooted in mistake
analysis by exposing LLMs to flawed outputs purposefully and then conducting a
thorough assessment to fully comprehend internal reasons via natural language
analysis. Thus, toxic responses can be transformed into instruction tuning
corpus for model alignment, and LLMs can not only be deterred from generating
flawed responses but also trained to self-criticize, leveraging its innate
ability to discriminate toxic content. Experimental results demonstrate that
the proposed method outperforms conventional alignment techniques for safety
instruction following, while maintaining superior efficiency.
- Abstract(参考訳): 大規模言語モデル(llm)の急速な発展は、特に有害かつ有害な反応の意図しない発生に関して、機会と課題の両方を提示する。
従来のアライメント手法は, LLMを所望のパフォーマンスに向けて操り, 悪意のあるコンテンツから守ることを目的としているが, 本研究では, LLMを欠陥出力に故意に露呈し, 自然言語解析による内部的理由を完全に理解するための徹底的な評価を行うことにより, 誤り解析に根ざした新たなアライメント戦略を提案する。
したがって、毒性応答はモデルアライメントのための命令チューニングコーパスに変換することができ、LSMは欠陥のある応答の発生を抑えるだけでなく、自己批判の訓練も行え、有害なコンテンツを識別する能力を活用している。
実験結果から,提案手法は従来のアライメント手法よりも優れた性能を保ちつつ,安全性指導に優れた性能を発揮することが示された。
関連論文リスト
- Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.658844160259104]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Towards Safer Large Language Models through Machine Unlearning [19.698620794387338]
SKU(Selective Knowledge Unlearning)は、有害な知識を排除し、通常のプロンプトで実用性を維持するために設計されている。
第1段階は、モデル内の有害な知識を特定し、取得することを目的としており、第2段階は、この知識を取り除くことを目的としている。
本実験は,有害情報除去と有効性維持のバランス点をSKUが特定できることを実証した。
論文 参考訳(メタデータ) (2024-02-15T16:28:34Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - N-Critics: Self-Refinement of Large Language Models with Ensemble of
Critics [5.516095889257118]
本稿では,大規模言語モデル(LLM)の自己補正機構を提案し,毒性や事実幻覚などの問題を緩和する。
この方法は、批評家とモデル自身のフィードバックのアンサンブルを通じてモデル出力を精査する。
論文 参考訳(メタデータ) (2023-10-28T11:22:22Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Pareto Optimal Learning for Estimating Large Language Model Errors [12.21899680905672]
大規模言語モデル(LLM)は多くのアプリケーションで印象的な能力を示している。
複数の情報ソースを統合することで,LSM応答における誤り確率を推定するリスクスコアを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T21:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。