論文の概要: Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement
- arxiv url: http://arxiv.org/abs/2407.01461v1
- Date: Mon, 1 Jul 2024 16:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 20:31:30.950399
- Title: Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement
- Title(参考訳): 強化学習型クエリリファインメントによる大規模言語モデルの能力とロバスト性の向上
- Authors: Zisu Huang, Xiaohua Wang, Feiran Zhang, Zhibo Xu, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang,
- Abstract要約: 大きな言語モデル(LLM)の、正直で無害で有用な応答を生成する能力は、ユーザープロンプトの品質に大きく依存している。
本研究では,LSMに入力される前にユーザプロンプトを洗練する,転送可能でプラグイン可能なフレームワークを提案する。
この戦略はクエリの品質を改善し、LCMにより誠実で良質で有用なレスポンスを生成する権限を与えます。
- 参考スコア(独自算出の注目度): 32.888016435098045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The capacity of large language models (LLMs) to generate honest, harmless, and helpful responses heavily relies on the quality of user prompts. However, these prompts often tend to be brief and vague, thereby significantly limiting the full potential of LLMs. Moreover, harmful prompts can be meticulously crafted and manipulated by adversaries to jailbreak LLMs, inducing them to produce potentially toxic content. To enhance the capabilities of LLMs while maintaining strong robustness against harmful jailbreak inputs, this study proposes a transferable and pluggable framework that refines user prompts before they are input into LLMs. This strategy improves the quality of the queries, empowering LLMs to generate more truthful, benign and useful responses. Specifically, a lightweight query refinement model is introduced and trained using a specially designed reinforcement learning approach that incorporates multiple objectives to enhance particular capabilities of LLMs. Extensive experiments demonstrate that the refinement model not only improves the quality of responses but also strengthens their robustness against jailbreak attacks. Code is available at: https://github.com/Huangzisu/query-refinement .
- Abstract(参考訳): 大きな言語モデル(LLM)の、正直で無害で有用な応答を生成する能力は、ユーザープロンプトの品質に大きく依存している。
しかしながら、これらのプロンプトはしばしば簡潔であいまいであり、それによってLLMの潜在能力を著しく制限する。
さらに、有害なプロンプトは、敵がジェイルブレイクのLSMを巧みに作り、操作し、潜在的に有害なコンテンツを生成するよう誘導することができる。
有害なジェイルブレイク入力に対して強い堅牢性を維持しつつ,LLMの能力を高めるために,LLMへの入力前にユーザプロンプトを洗練する,転送可能でプラガブルなフレームワークを提案する。
この戦略はクエリの品質を改善し、LCMにより誠実で良質で有用なレスポンスを生成する権限を与えます。
具体的には、LLMの特定の能力を高めるために、複数の目的を組み込んだ特別に設計された強化学習アプローチを用いて、軽量なクエリリファインメントモデルを導入し、訓練する。
大規模な実験により、改良モデルは応答の質を向上するだけでなく、脱獄攻撃に対する堅牢性を高めることが示されている。
コードは、https://github.com/Huangzisu/query-refinement で入手できる。
関連論文リスト
- Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs [30.333277284839053]
大規模言語モデル(LLM)は、高品質な応答を生成することに成功している。
応答品質を向上させる既存の方法は、しばしば即時改善モデルを含む。
我々は、LLMにより効果的な応答を提供するための自己指示型インコンテキスト学習フレームワークを導入する。
論文 参考訳(メタデータ) (2024-09-03T02:42:39Z) - Can LLMs be Fooled? Investigating Vulnerabilities in LLMs [4.927763944523323]
LLM(Large Language Models)の出現は、自然言語処理(NLP)内の様々な領域で大きな人気を集め、膨大なパワーを誇っている。
本稿では,各脆弱性部の知見を合成し,新たな研究・開発の方向性を提案する。
現在の脆弱性の焦点を理解することで、将来のリスクを予測し軽減できます。
論文 参考訳(メタデータ) (2024-07-30T04:08:00Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。