論文の概要: Beyond Under-Alignment: Atomic Preference Enhanced Factuality Tuning for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.12416v1
- Date: Tue, 18 Jun 2024 09:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:46:52.533095
- Title: Beyond Under-Alignment: Atomic Preference Enhanced Factuality Tuning for Large Language Models
- Title(参考訳): アンダーアライメントを超えて:大規模言語モデルのためのアトミックな優先度向上によるファクチュアリティチューニング
- Authors: Hongbang Yuan, Yubo Chen, Pengfei Cao, Zhuoran Jin, Kang Liu, Jun Zhao,
- Abstract要約: 様々な選好学習アルゴリズムによって調整された異なるモデルの事実性を評価する。
textbfAtomic textbfPreference textbfEnhanced textbfFactuality textbfTuning を提案する。
- 参考スコア(独自算出の注目度): 19.015202590038996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable success but still tend to generate factually erroneous responses, a phenomenon known as hallucination. A recent trend is to use preference learning to fine-tune models to align with factuality. However, existing work primarily evaluates fine-tuned models on in-domain (ID) datasets and the factuality on out-of-domain (OOD) datasets remains underexplored. In this paper, we conduct a comprehensive evaluation of the factuality of different models tuned by various preference learning algorithms and demonstrate that their performance on OOD datasets either increases minimally or decreases. Subsequently, we reveal that the main cause of model's failure to uphold factuality under a distribution shift is \textbf{under-alignment}, rather than \textbf{over-alignment}, by analyzing the token distribution shift of the models before and after tuning. Finally, we propose \textbf{APEFT} (\textbf{A}tomic \textbf{P}reference \textbf{E}nhanced \textbf{F}actuality \textbf{T}uning), a framework that enhances model's awareness of factuality at the granularity of individual facts. Extensive experiments demonstrate that APEFT improves model performance by an average of $\boldsymbol{3.45\%}$ on both ID and OOD datasets, which is highly effective.
- Abstract(参考訳): 大型言語モデル(LLM)は目覚ましい成功を収めているが、いまだに幻覚と呼ばれる現象である事実的に誤った反応を生じさせる傾向がある。
最近のトレンドは、好みの学習を使ってモデルを微調整し、事実と一致させることである。
しかし、既存の研究は主にドメイン内(ID)データセットの微調整モデルを評価しており、ドメイン外(OOD)データセットの事実はいまだ調査されていない。
本稿では,様々な選好学習アルゴリズムによって調整された異なるモデルの事実性を総合的に評価し,OODデータセット上での性能が最小限に向上するか低下するかを示す。
その後、モデルが現実性を維持できなかった主な原因は、調整前後のモデルのトークン分布シフトを分析することによって、 \textbf{under-alignment} ではなく \textbf{under-alignment} であることが明らかとなった。
最後に、個々の事実の粒度におけるモデルによる事実の認識を高めるフレームワークである \textbf{APEFT} (\textbf{A}tomic \textbf{P}reference \textbf{E}nhanced \textbf{F}actuality \textbf{T}uning) を提案する。
APEFTは、IDデータセットとOODデータセットの両方で平均$\boldsymbol{3.45\%}$でモデル性能を向上し、非常に効果的であることを示した。
関連論文リスト
- A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Feature Protection For Out-of-distribution Generalization [24.072876186625855]
事前訓練された特徴の保護は、より厳密に調整されたモデルが一般化に結びつくことを示す。
事前訓練された特徴の保護は,OODの一般化に対してより堅牢な微調整モデルをもたらすことを示す。
論文 参考訳(メタデータ) (2024-05-25T03:00:06Z) - Entity-level Factual Adaptiveness of Fine-tuning based Abstractive
Summarization Models [31.84120883461332]
我々は、微調整に基づく要約モデルの頑健さと知識衝突を解析する。
本稿では,制御可能な対実データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-02-23T07:53:39Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - The Bayesian Context Trees State Space Model for time series modelling
and forecasting [8.37609145576126]
実数値時系列に対してリッチな混合モデルを開発するための階層的ベイズフレームワークが導入された。
最上位では、有意義な離散状態が、最新のサンプルの適切な定量値として特定される。
下位レベルでは、実数値時系列(ベースモデル)の異なる任意のモデルが各状態と関連付けられている。
論文 参考訳(メタデータ) (2023-08-02T02:40:42Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Disfluency Detection with Unlabeled Data and Small BERT Models [3.04133054437883]
本稿では,BERTアーキテクチャに基づく小型・高速・オンデバイスモデルに焦点をあてて,ディフルエンシ検出タスクに着目する。
性能を保ちながら1.3 MiB程度の拡散検出モデルを訓練できることを実証する。
論文 参考訳(メタデータ) (2021-04-21T21:24:32Z) - Elastic weight consolidation for better bias inoculation [24.12790037712358]
EWC(Elastic Weight Consolidation)は、モデルの微調整によってバイアスを緩和する。
EWCは標準的な微調整を支配し、元の(バイアス付き)データセットを忘れるレベルの低いモデルを生成する。
論文 参考訳(メタデータ) (2020-04-29T17:45:12Z) - Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。
DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。
MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文 参考訳(メタデータ) (2020-04-21T20:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。