論文の概要: Correcting Large Language Model Behavior via Influence Function
- arxiv url: http://arxiv.org/abs/2412.16451v1
- Date: Sat, 21 Dec 2024 02:50:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:01:43.111177
- Title: Correcting Large Language Model Behavior via Influence Function
- Title(参考訳): 影響関数による大規模言語モデル行動の補正
- Authors: Han Zhang, Zhuo Zhang, Yi Zhang, Yuanzhao Zhai, Hanyang Peng, Yu Lei, Yue Yu, Hui Wang, Bin Liang, Lin Gui, Ruifeng Xu,
- Abstract要約: 人間の好みのダイナミックな性質は、以前のトレーニングデータを時代遅れにしたり、あるいは誤ったものにしたりすることができる。
影響関数のリコールとポストトレーニングによる大規模言語モデル行動補正(LANCET)を提案する。
LANCETは、(1)好ましくないモデル出力に大きな影響を与えるトレーニングデータを特定するためにインフルエンス関数を使用し、(2)モデル動作を調整するためにインフルエンス関数駆動型ブレグマン最適化(IBO)技術を適用する。
- 参考スコア(独自算出の注目度): 44.090990384733324
- License:
- Abstract: Recent advancements in AI alignment techniques have significantly improved the alignment of large language models (LLMs) with static human preferences. However, the dynamic nature of human preferences can render some prior training data outdated or even erroneous, ultimately causing LLMs to deviate from contemporary human preferences and societal norms. Existing methodologies, whether they involve the curation of new data for continual alignment or the manual correction of outdated data for re-alignment, demand costly human resources. To address this challenge, we propose a novel approach, Large Language Model Behavior Correction with Influence Function Recall and Post-Training (LANCET), which requires no human involvement. LANCET consists of two phases: (1) using influence functions to identify the training data that significantly impact undesirable model outputs, and (2) applying an Influence function-driven Bregman Optimization (IBO) technique to adjust the model's behavior based on these influence distributions. Our experiments demonstrate that LANCET effectively and efficiently correct inappropriate behaviors of LLMs. Furthermore, LANCET can outperform methods that rely on collecting human preferences, and it enhances the interpretability of learning human preferences within LLMs.
- Abstract(参考訳): AIアライメント技術の最近の進歩は、大規模言語モデル(LLM)と静的な人間の好みとのアライメントを大幅に改善した。
しかし、人間の嗜好の動的な性質は、以前のトレーニングデータを時代遅れにしたり、あるいは誤ったものにしたりし、最終的にLLMは現代の人間の嗜好や社会的規範から逸脱する。
既存の手法では、継続アライメントのための新しいデータのキュレーションや、再アライメントのための古いデータの手作業による修正など、コストのかかる人的資源が要求される。
この課題に対処するために,人間の関与を必要としないLarge Language Model Behavior Correction with Influence Function Recall and Post-Training (LANCET)を提案する。
LANCETは、(1)好ましくないモデル出力に大きな影響を与えるトレーニングデータを特定するためにインフルエンス関数を使用し、(2)インフルエンス関数駆動型ブレグマン最適化(IBO)技術を適用して、これらのインフルエンス分布に基づいてモデルの振る舞いを調整する。
実験の結果,LANCETはLLMの不適切な挙動を効果的に,かつ効率的に補正できることがわかった。
さらに、LANCETは、人間の嗜好の収集に依存する方法よりも優れており、LLM内での人間の嗜好の理解可能性を高めることができる。
関連論文リスト
- Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - HARE: HumAn pRiors, a key to small language model Efficiency [6.253561984966316]
人間の先駆者は、ディープラーニングでデータを効率的に活用する上で重要な役割を担います。
既存のSmall Language Modelは、主にWebスクラッドな大規模トレーニングデータに依存している。
我々は、データ構築に人類の優先事項を活用する原則を提案する。
論文 参考訳(メタデータ) (2024-06-17T10:56:03Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - CLHA: A Simple yet Effective Contrastive Learning Framework for Human Alignment [42.71324708567498]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好を整合させる重要な手法である。
我々は,LLMと人間の嗜好を直接整合させる,単純かつ効果的な人間適応のためのコントラスト学習フレームワーク(CLHA)を提案する。
論文 参考訳(メタデータ) (2024-03-25T11:37:15Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - Federated Learning for Early Dropout Prediction on Healthy Ageing
Applications [0.0]
我々は、プライバシの懸念を最小限に抑え、個々のデータを転送することなく分散トレーニングを可能にするフェデレーション機械学習(FML)アプローチを提案する。
その結果,FMLでトレーニングしたモデルの予測精度は,データ選択とクラス不均衡ハンドリング技術により有意に向上した。
論文 参考訳(メタデータ) (2023-09-08T13:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。