論文の概要: The Poison of Alignment
- arxiv url: http://arxiv.org/abs/2308.13449v1
- Date: Fri, 25 Aug 2023 15:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 13:21:07.652974
- Title: The Poison of Alignment
- Title(参考訳): アライメントの毒
- Authors: Aibek Bekbayev, Sungbae Chun, Yerzat Dulat, James Yamazaki
- Abstract要約: そこで本研究では,アライメントの有無の影響を受け,命令調整モデルの性能に新たな洞察を与える。
その結果,様々な推論ベンチマークで得られた微調整モデルの性能が著しく低下することが実証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From the perspective of content safety issues, alignment has shown to limit
large language models' (LLMs) harmful content generation. This intentional
method of reinforcing models to not respond to certain user inputs seem to be
present in many modern open-source instruction tuning datasets such as
OpenAssistant or Guanaco. We introduce a novel insight to an instruction-tuned
model's performance affected by the presence of alignment in supervised
fine-tuning dataset. To be specific, we noticed that alignment acts as if it is
poisoning the instruction dataset. Experimentally, we demonstrate that aligned
answers significantly worsen the performance of the resulting fine-tuned
model's on various reasoning benchmarks such as Big Bench (BBH), Massive
Multitask Language Understanding (MMLU), Human Eval, and Discrete Reasoning
Over Paragraphs (DROP), performing worse than the counterpart tuned without
alignment by 4-33%.
- Abstract(参考訳): コンテンツ安全性の問題の観点から、アライメントは大きな言語モデル(LLM)の有害なコンテンツ生成を制限することが示されている。
特定のユーザ入力に応答しないようモデルを補強するこの意図的な方法は、OpenAssistantやGuanacoなど、多くの現代的なオープンソースインストラクションチューニングデータセットに存在しているように思われる。
教師付き微調整データセットにおけるアライメントの存在によって影響を受ける命令調整モデルの性能に新たな洞察を導入する。
具体的には、アライメントが命令データセットを害しているかのように振る舞うことに気付いた。
実験により,一致した回答は,Big Bench (BBH), Massive Multitask Language Understanding (MMLU), Human Eval, Discrete Reasoning Over Paragraphs (DROP) などの様々な推論ベンチマークにおいて,結果の微調整モデルの性能を著しく悪化させ,アライメントを4~33%向上させることを示した。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。
インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文 参考訳(メタデータ) (2024-10-14T17:57:09Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models [53.50543146583101]
小さなデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。
悪意のあるアクターは、ほぼすべてのタスク固有のデータセットの構造を微妙に操作することで、より危険なモデル行動を促進することができる。
本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-06-12T18:33:11Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging [25.078498180620425]
我々は, bntextbfChing および bridging を用いて, textbfFine の粒度のtextbfEvaluatiotextbfN textbfExtended を実現するためのステップバイステップ評価フレームワーク textbfFennec を提案する。
評価モデルにより誘導される微粒化補正機能を用いて、複数のモデル応答を洗練し、MT-Bench上の1-2点の改善をもたらす。
論文 参考訳(メタデータ) (2024-05-20T16:47:22Z) - Adversarial Fine-Tuning of Language Models: An Iterative Optimisation
Approach for the Generation and Detection of Problematic Content [0.0]
大規模言語モデル(LLM)における意図しない有害コンテンツ生成の課題に挑戦する。
私たちの2つのアプローチでは、潜在的に有害なプロンプトを生成するために微調整された敵モデルと、これらのプロンプトを反復的に識別するように最適化された判断モデルを採用しています。
本研究は, 初歩的なモデルテキストタダを用いて, わずか数ラウンドでGPT-4よりも13%高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-08-26T05:20:58Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Improving the Faithfulness of Abstractive Summarization via Entity
Coverage Control [27.214742188672464]
エンティティカバレッジ制御(ECC)を用いたエンティティレベルの幻覚の治療法を提案する。
ECCはエンティティカバレッジの精度を計算し、トレーニング例ごとに対応する制御コードをプリペンドする。
提案手法は,教師付き微調整およびゼロショット設定において,より忠実かつ健全な抽象的要約をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-05T18:52:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。