論文の概要: The Poison of Alignment
- arxiv url: http://arxiv.org/abs/2308.13449v1
- Date: Fri, 25 Aug 2023 15:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 13:21:07.652974
- Title: The Poison of Alignment
- Title(参考訳): アライメントの毒
- Authors: Aibek Bekbayev, Sungbae Chun, Yerzat Dulat, James Yamazaki
- Abstract要約: そこで本研究では,アライメントの有無の影響を受け,命令調整モデルの性能に新たな洞察を与える。
その結果,様々な推論ベンチマークで得られた微調整モデルの性能が著しく低下することが実証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From the perspective of content safety issues, alignment has shown to limit
large language models' (LLMs) harmful content generation. This intentional
method of reinforcing models to not respond to certain user inputs seem to be
present in many modern open-source instruction tuning datasets such as
OpenAssistant or Guanaco. We introduce a novel insight to an instruction-tuned
model's performance affected by the presence of alignment in supervised
fine-tuning dataset. To be specific, we noticed that alignment acts as if it is
poisoning the instruction dataset. Experimentally, we demonstrate that aligned
answers significantly worsen the performance of the resulting fine-tuned
model's on various reasoning benchmarks such as Big Bench (BBH), Massive
Multitask Language Understanding (MMLU), Human Eval, and Discrete Reasoning
Over Paragraphs (DROP), performing worse than the counterpart tuned without
alignment by 4-33%.
- Abstract(参考訳): コンテンツ安全性の問題の観点から、アライメントは大きな言語モデル(LLM)の有害なコンテンツ生成を制限することが示されている。
特定のユーザ入力に応答しないようモデルを補強するこの意図的な方法は、OpenAssistantやGuanacoなど、多くの現代的なオープンソースインストラクションチューニングデータセットに存在しているように思われる。
教師付き微調整データセットにおけるアライメントの存在によって影響を受ける命令調整モデルの性能に新たな洞察を導入する。
具体的には、アライメントが命令データセットを害しているかのように振る舞うことに気付いた。
実験により,一致した回答は,Big Bench (BBH), Massive Multitask Language Understanding (MMLU), Human Eval, Discrete Reasoning Over Paragraphs (DROP) などの様々な推論ベンチマークにおいて,結果の微調整モデルの性能を著しく悪化させ,アライメントを4~33%向上させることを示した。
関連論文リスト
- HateCOT: An Explanation-Enhanced Dataset for Generalizable Offensive Speech Detection via Large Language Models [23.416609091912026]
HateCOTは、GPT-3.5-Turboと人間によって生成された説明を含む、さまざまな既存のソースから52,000のサンプルのデータセットである。
HateCOT上での攻撃的コンテンツ検出のための事前学習モデルは、ゼロおよび少数設定の3つのベンチマークデータセット上で、オープンソースのLanguage Modelsを著しくブートする。
論文 参考訳(メタデータ) (2024-03-18T04:12:35Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大規模言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う必要がある。
本稿では,安全アライメントを逆転し,有害な言語モデルを生成することを実証する推論時アタック手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Adversarial Fine-Tuning of Language Models: An Iterative Optimisation
Approach for the Generation and Detection of Problematic Content [0.0]
大規模言語モデル(LLM)における意図しない有害コンテンツ生成の課題に挑戦する。
私たちの2つのアプローチでは、潜在的に有害なプロンプトを生成するために微調整された敵モデルと、これらのプロンプトを反復的に識別するように最適化された判断モデルを採用しています。
本研究は, 初歩的なモデルテキストタダを用いて, わずか数ラウンドでGPT-4よりも13%高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-08-26T05:20:58Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Improving the Faithfulness of Abstractive Summarization via Entity
Coverage Control [27.214742188672464]
エンティティカバレッジ制御(ECC)を用いたエンティティレベルの幻覚の治療法を提案する。
ECCはエンティティカバレッジの精度を計算し、トレーニング例ごとに対応する制御コードをプリペンドする。
提案手法は,教師付き微調整およびゼロショット設定において,より忠実かつ健全な抽象的要約をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-05T18:52:19Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。