論文の概要: Mining the Explainability and Generalization: Fact Verification Based on Self-Instruction
- arxiv url: http://arxiv.org/abs/2405.12579v2
- Date: Thu, 23 May 2024 08:02:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 12:47:38.060982
- Title: Mining the Explainability and Generalization: Fact Verification Based on Self-Instruction
- Title(参考訳): 説明可能性と一般化のマイニング:自己指導に基づく実例検証
- Authors: Guangyao Lu, Yulin Liu,
- Abstract要約: 本稿では,自己指導に基づくファクトチェックのための微調整手法を提案する。
最小スケールのLLaMA-7Bモデルを微調整し、挑戦的な事実チェックデータセットFEVEROUSとHOVERで評価する。
本手法は, 自己指導型学習をファクトチェックに活用し, コントラスト学習とDPOの改善を両立させる。
- 参考スコア(独自算出の注目度): 0.7673339435080445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fact-checking based on commercial LLMs has become mainstream. Although these methods offer high explainability, it falls short in accuracy compared to traditional fine-tuning approaches, and data security is also a significant concern. In this paper, we propose a self-instruction based fine-tuning approach for fact-checking that balances accuracy and explainability. Our method consists of Data Augmentation and Improved DPO fine-tuning. The former starts by instructing the model to generate both positive and negative explanations based on claim-evidence pairs and labels, then sampling the dataset according to our customized difficulty standards. The latter employs our proposed improved DPO to fine-tune the model using the generated samples. We fine-tune the smallest-scale LLaMA-7B model and evaluate it on the challenging fact-checking datasets FEVEROUS and HOVER, utilizing four fine-tuning methods and three few-shot learning methods for comparison. The experiments demonstrate that our approach not only retains accuracy comparable to, or even surpassing, traditional fine-tuning methods, but also generates fluent explanation text. Moreover, it also exhibit high generalization performance. Our method is the first to leverage self-supervised learning for fact-checking and innovatively combines contrastive learning and improved DPO in fine-tuning LLMs, as shown in the experiments.
- Abstract(参考訳): 商業LLMに基づくファクトチェックが主流となっている。
これらの手法は説明性が高いが、従来の微調整手法に比べて精度が低く、データセキュリティも重要な問題である。
本稿では,自己指導に基づくファクトチェックのための微調整手法を提案する。
提案手法はデータ拡張と改良DPO微調整からなる。
前者は、クレームエビデンスペアとラベルに基づいて肯定的な説明と否定的な説明の両方を生成するようモデルに指示し、その後、カスタマイズされた難易度基準に従ってデータセットをサンプリングする。
後者では、提案した改良DPOを用いて、生成されたサンプルを用いてモデルを微調整する。
最小スケールのLLaMA-7Bモデルを微調整し、難解な事実チェックデータセットFEVEROUSとHOVERで評価し、4つの微調整法と3つの数ショット学習法を用いて比較を行った。
実験により,本手法は従来の微調整法に匹敵する精度,あるいは超越した精度を保っているだけでなく,洗練された説明文を生成することがわかった。
また、高い一般化性能を示す。
本手法は,自己指導型学習をファクトチェックに活用する最初の方法であり,実験で示すように,コントラスト学習とDPOの改善を両立させる。
関連論文リスト
- Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - Knowledge Editing in Language Models via Adapted Direct Preference Optimization [50.616875565173274]
大きな言語モデル(LLM)は、時間とともに時代遅れになる可能性がある。
知識編集は、高価なリトレーニングを必要としないウェイトアップデートを使用して、この課題を克服することを目的としている。
論文 参考訳(メタデータ) (2024-06-14T11:02:21Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好調整モデルの多くは、共通の選好データセット上で60%未満のランキング精度を実現する。
我々は、この矛盾をDPOの目的に当てはめ、これは経験的にも理論的にも、微妙なランキングエラーの修正に不適当である。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-04-08T21:05:42Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
視覚言語モデル(VLM)におけるOOD精度と校正誤差の両方を改善する頑健な微調整法を提案する。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - Improving the Adversarial Robustness of NLP Models by Information
Bottleneck [112.44039792098579]
非破壊機能は敵によって容易に操作でき、NLPモデルを騙すことができる。
本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。
情報ボトルネックに基づく手法を用いてトレーニングしたモデルでは,ロバストな精度で大幅な改善が達成できることを示す。
論文 参考訳(メタデータ) (2022-06-11T12:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。