Fugu-MT 論文翻訳(概要): The Poison of Alignment

論文の概要: The Poison of Alignment

arxiv url: http://arxiv.org/abs/2308.13449v1
Date: Fri, 25 Aug 2023 15:51:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-28 13:21:07.652974
Title: The Poison of Alignment
Title（参考訳）: アライメントの毒
Authors: Aibek Bekbayev, Sungbae Chun, Yerzat Dulat, James Yamazaki
Abstract要約: そこで本研究では,アライメントの有無の影響を受け,命令調整モデルの性能に新たな洞察を与える。その結果,様々な推論ベンチマークで得られた微調整モデルの性能が著しく低下することが実証された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: From the perspective of content safety issues, alignment has shown to limit large language models' (LLMs) harmful content generation. This intentional method of reinforcing models to not respond to certain user inputs seem to be present in many modern open-source instruction tuning datasets such as OpenAssistant or Guanaco. We introduce a novel insight to an instruction-tuned model's performance affected by the presence of alignment in supervised fine-tuning dataset. To be specific, we noticed that alignment acts as if it is poisoning the instruction dataset. Experimentally, we demonstrate that aligned answers significantly worsen the performance of the resulting fine-tuned model's on various reasoning benchmarks such as Big Bench (BBH), Massive Multitask Language Understanding (MMLU), Human Eval, and Discrete Reasoning Over Paragraphs (DROP), performing worse than the counterpart tuned without alignment by 4-33%.
Abstract（参考訳）: コンテンツ安全性の問題の観点から、アライメントは大きな言語モデル(LLM)の有害なコンテンツ生成を制限することが示されている。特定のユーザ入力に応答しないようモデルを補強するこの意図的な方法は、OpenAssistantやGuanacoなど、多くの現代的なオープンソースインストラクションチューニングデータセットに存在しているように思われる。教師付き微調整データセットにおけるアライメントの存在によって影響を受ける命令調整モデルの性能に新たな洞察を導入する。具体的には、アライメントが命令データセットを害しているかのように振る舞うことに気付いた。実験により,一致した回答は,Big Bench (BBH), Massive Multitask Language Understanding (MMLU), Human Eval, Discrete Reasoning Over Paragraphs (DROP) などの様々な推論ベンチマークにおいて,結果の微調整モデルの性能を著しく悪化させ,アライメントを4～33%向上させることを示した。

関連論文リスト

Persona Features Control Emergent Misalignment [4.716981217776586]
我々は,GPT-4oを意図的でないコードで微調整することで,「創発的不整合」を引き起こすことを示す。内部モデル表現を微調整前後に比較するために「モデル微分」手法を適用する。また緩和戦略についても検討し,数百個の良性サンプルを瞬時に微調整することで効率よくアライメントを復元できることを見出した。
論文参考訳（メタデータ） (2025-06-24T17:38:21Z)
Vulnerability-Aware Alignment: Mitigating Uneven Forgetting in Harmful Fine-Tuning [22.13346397293792]
脆弱性認識アライメント(Vulnerability-Aware Alignment)は、データの脆弱性を推定し、データを"脆弱性"と"脆弱性"のグループに分割し、バランスの取れた学習を促進する。 VAAは、ダウンストリームタスクのパフォーマンスを維持しながら有害なスコアを著しく低減し、最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-04T11:33:36Z)
Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文参考訳（メタデータ） (2025-02-19T12:07:53Z)
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。 NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文参考訳（メタデータ） (2024-11-08T20:11:24Z)
DISCO: DISCovering Overfittings as Causal Rules for Text Classification Models [6.369258625916601]
ポストホックの解釈可能性法は、モデルの意思決定プロセスを完全に捉えるのに失敗する。本稿では,グローバルなルールベースの説明を見つけるための新しい手法であるdisCOを紹介する。 DISCOは対話的な説明をサポートし、人間の検査者がルールベースの出力で突発的な原因を区別できるようにする。
論文参考訳（メタデータ） (2024-11-07T12:12:44Z)
Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文参考訳（メタデータ） (2024-10-14T17:57:09Z)
Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文参考訳（メタデータ） (2024-07-21T18:08:44Z)
Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。 DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models [53.50543146583101]
小さなデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。悪意のあるアクターは、ほぼすべてのタスク固有のデータセットの構造を微妙に操作することで、より危険なモデル行動を促進することができる。本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
論文参考訳（メタデータ） (2024-06-12T18:33:11Z)
Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。この問題に対処するための単純な分散結合フレームワークを導入する。我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文参考訳（メタデータ） (2024-05-22T08:18:19Z)
Fennec: Fine-grained Language Model Evaluation and Correction Extended through Branching and Bridging [25.078498180620425]
我々は, bntextbfChing および bridging を用いて, textbfFine の粒度のtextbfEvaluatiotextbfN textbfExtended を実現するためのステップバイステップ評価フレームワーク textbfFennec を提案する。評価モデルにより誘導される微粒化補正機能を用いて、複数のモデル応答を洗練し、MT-Bench上の1-2点の改善をもたらす。
論文参考訳（メタデータ） (2024-05-20T16:47:22Z)
Adversarial Fine-Tuning of Language Models: An Iterative Optimisation Approach for the Generation and Detection of Problematic Content [0.0]
大規模言語モデル(LLM)における意図しない有害コンテンツ生成の課題に挑戦する。私たちの2つのアプローチでは、潜在的に有害なプロンプトを生成するために微調整された敵モデルと、これらのプロンプトを反復的に識別するように最適化された判断モデルを採用しています。本研究は, 初歩的なモデルテキストタダを用いて, わずか数ラウンドでGPT-4よりも13%高い精度を達成できることを示す。
論文参考訳（メタデータ） (2023-08-26T05:20:58Z)
Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。 LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文参考訳（メタデータ） (2023-06-26T10:26:33Z)
Improving the Faithfulness of Abstractive Summarization via Entity Coverage Control [27.214742188672464]
エンティティカバレッジ制御(ECC)を用いたエンティティレベルの幻覚の治療法を提案する。 ECCはエンティティカバレッジの精度を計算し、トレーニング例ごとに対応する制御コードをプリペンドする。提案手法は,教師付き微調整およびゼロショット設定において,より忠実かつ健全な抽象的要約をもたらすことを示す。
論文参考訳（メタデータ） (2022-07-05T18:52:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。