論文の概要: IRepair: An Intent-Aware Approach to Repair Data-Driven Errors in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.07072v2
- Date: Wed, 12 Feb 2025 05:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:51:14.033163
- Title: IRepair: An Intent-Aware Approach to Repair Data-Driven Errors in Large Language Models
- Title(参考訳): IRepair: 大規模言語モデルにおけるデータ駆動エラーの修正のためのインテントアウェアアプローチ
- Authors: Sayem Mohammad Imtiaz, Astha Singh, Fraol Batole, Hridesh Rajan,
- Abstract要約: 大規模言語モデル(LLM)はデータセットのバイアスに弱いことで知られており、毒性などの問題を引き起こす。
本稿では,動的スライシングに基づく意図認識型LLM修復戦略であるIRepairを紹介する。
IRepairはエラーを43.6%効率よく修復する一方で,一般性能の46%低下を招いた。
- 参考スコア(独自算出の注目度): 11.075423190298686
- License:
- Abstract: Not a day goes by without hearing about the impressive feats of large language models (LLMs), and equally, not a day passes without hearing about their challenges. LLMs are notoriously vulnerable to biases in their dataset, leading to issues such as toxicity. While domain-adaptive training has been employed to mitigate these issues, these techniques often address all model parameters indiscriminately during the repair process, resulting in poor repair quality and reduced model versatility. In this paper, we introduce a novel dynamic slicing-based intent-aware LLM repair strategy, IRepair. This approach selectively targets the most error-prone sections of the model for repair. Specifically, we propose dynamically slicing the model's most sensitive layers that require immediate attention, concentrating repair efforts on those areas. This method enables more effective repairs with potentially less impact on the model's overall performance by altering a smaller portion of the model. We evaluated our technique on three models from the GPT2 and GPT-Neo families, with parameters ranging from 800M to 1.6B, in a toxicity mitigation setup. Our results show that IRepair repairs errors 43.6% more effectively while causing 46% less disruption to general performance compared to the closest baseline, direct preference optimization. Our empirical analysis also reveals that errors are more concentrated in a smaller section of the model, with the top 20% of layers exhibiting 773% more error density than the remaining 80\%. This highlights the need for selective repair. Additionally, we demonstrate that a dynamic selection approach is essential for addressing errors dispersed throughout the model, ensuring a robust and efficient repair.
- Abstract(参考訳): 大きな言語モデル(LLM)の印象的な成果を聞かずに1日も経たず、同様に、彼らの課題を聞かずに1日も経たないのです。
LLMはデータセットのバイアスに弱いことで知られており、毒性などの問題を引き起こす。
ドメイン適応型トレーニングはこれらの問題を緩和するために採用されているが、これらの手法は修理プロセス中に不特定に全てのモデルパラメータに対処し、修理品質が低下し、モデルの汎用性が低下する。
本稿では,動的スライシングに基づく意図認識型LLM修復戦略であるIRepairを紹介する。
このアプローチは、修復のためのモデルの最もエラーを起こしやすいセクションを選択的にターゲットする。
具体的には、モデルの最も敏感な層を動的にスライスし、即時注意を要し、それらの領域の修復作業に集中することを提案する。
この方法では、モデルの小さな部分を変更することで、モデル全体のパフォーマンスに潜在的に影響を与えずに、より効果的な修復を可能にする。
我々は,GPT2およびGPT-Neoファミリーの3種類のモデルを用いて,800Mから1.6Bまでのパラメータを毒性軽減装置で評価した。
その結果、IRepairはエラーを43.6%効率良く修復する一方で、最も近いベースラインである直接選好最適化に比べて46%の破壊率を低下させることがわかった。
私たちの経験分析では、エラーはモデルの小さな部分に集中しており、上位20%の層は残りの80\%よりも773%高いエラー密度を示しています。
これは選択的修復の必要性を浮き彫りにする。
さらに、モデル全体に分散したエラーに対処し、堅牢で効率的な修復を保証するために、動的選択アプローチが不可欠であることを実証する。
関連論文リスト
- Fast and Interpretable Mixed-Integer Linear Program Solving by Learning Model Reduction [24.3088703166792]
本稿では,MILPの縮小モデルと等価モデルを中間段階として学習することを目的とする。
縮小モデルはしばしば解釈可能な操作に対応しており、既存の商用解法よりもはるかに高速に大規模MILP問題を解くことができる。
本稿では,モデル縮小学習タスクの性能向上に寄与する嗜好情報を捕捉し,表現するための注意機構を提案する。
論文 参考訳(メタデータ) (2024-12-31T06:50:42Z) - SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights [89.56181323849512]
より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Repairing Systematic Outliers by Learning Clean Subspaces in VAEs [31.298063226774115]
本稿では,システムエラーの検出と自動修復のための半教師付きモデルであるクリーンサブスペースバリアオートエンコーダ(VAE)を提案する。
VAEは従来のモデルに比べてラベル付きデータをはるかに少なく、データの2%未満で有効である。
3つの画像データセットを異なるレベルの腐敗とラベル付きセットサイズを持つシナリオで実験する。
論文 参考訳(メタデータ) (2022-07-17T01:28:23Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。