論文の概要: Towards Faithful and Robust LLM Specialists for Evidence-Based
Question-Answering
- arxiv url: http://arxiv.org/abs/2402.08277v3
- Date: Mon, 26 Feb 2024 11:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:29:09.735385
- Title: Towards Faithful and Robust LLM Specialists for Evidence-Based
Question-Answering
- Title(参考訳): 根拠に基づく質問応答のための忠実でロバストなLLMスペシャリストを目指して
- Authors: Tobias Schimanski, Jingwei Ni, Mathias Kraus, Elliott Ash, Markus
Leippold
- Abstract要約: 我々は、ソースの品質向上と属性応答性向上のために、LLM(Large Language Models)を頑健に微調整する方法について検討する。
具体的には、自動データ品質フィルタを備えたデータ生成パイプラインを導入し、多様な高品質なトレーニングおよびテストデータを大規模に合成する。
総合評価の結果, 合成データの微調整により, 内分布と外分布の両方の性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 11.398230500227017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances towards more faithful and traceable answers of Large Language Models
(LLMs) are crucial for various research and practical endeavors. One avenue in
reaching this goal is basing the answers on reliable sources. However, this
Evidence-Based QA has proven to work insufficiently with LLMs in terms of
citing the correct sources (source quality) and truthfully representing the
information within sources (answer attributability). In this work, we
systematically investigate how to robustly fine-tune LLMs for better source
quality and answer attributability. Specifically, we introduce a data
generation pipeline with automated data quality filters, which can synthesize
diversified high-quality training and testing data at scale. We further
introduce four test sets to benchmark the robustness of fine-tuned specialist
models. Extensive evaluation shows that fine-tuning on synthetic data improves
performance on both in- and out-of-distribution. Furthermore, we show that data
quality, which can be drastically improved by proposed quality filters, matters
more than quantity in improving Evidence-Based QA.
- Abstract(参考訳): 大規模言語モデル(LLM)のより忠実で追跡可能な回答への進歩は、様々な研究や実践に不可欠である。
この目標を達成する1つの道は、信頼できる情報源の答えを基盤にすることです。
しかしながら、このエビデンスに基づくQAは、正しいソース(ソースの品質)を引用し、情報源(属性)内の情報を真に表現するという点で、LLMと不十分に機能することが証明されている。
本研究では,より優れたソース品質と応答帰属性を実現するために,LLMを頑健に微調整する方法を体系的に検討する。
具体的には,多様な高品質なトレーニングと大規模テストデータを合成可能な,自動データ品質フィルタを備えたデータ生成パイプラインを提案する。
さらに,精巧に調整されたスペシャリストモデルのロバスト性を評価するために,4つのテストセットを導入する。
総合評価の結果, 合成データの微調整により, 内分布と外分布の両方の性能が向上することがわかった。
さらに,提案した品質フィルタによって大幅に改善できるデータ品質が,証拠ベースQAの改善に重要であることを示す。
関連論文リスト
- Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Rethinking the Instruction Quality: LIFT is What You Need [20.829372251475476]
既存の品質改善手法は、データセットの拡張やキュレーションを通じて命令データを変更する。
本稿では,命令品質を新たな高さに高めるために設計された新しい多目的パラダイムであるLIFT(LLM Instruction Fusion Transfer)を提案する。
実験結果から, LLMは, パラダイムによって選択された高品質な命令データが少ない場合でも, 各種タスクにおける頑健な性能を一貫して維持することを示した。
論文 参考訳(メタデータ) (2023-12-12T03:30:21Z) - Enable Language Models to Implicitly Learn Self-Improvement From Data [51.63428207248947]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T04:29:40Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Quality In / Quality Out: Assessing Data quality in an Anomaly Detection
Benchmark [0.13764085113103217]
同じベンチマークデータセット(異常検出のためのフローベースリアルタイムデータセットであるUGR'16)に対する比較的小さな変更は、考慮した機械学習技術よりも、モデルパフォーマンスに著しく影響することを示します。
この結果から,自律型ネットワークにおけるデータ品質評価と最適化技術に,より注意を払う必要があることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:03:12Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。