論文の概要: Towards Faithful and Robust LLM Specialists for Evidence-Based
Question-Answering
- arxiv url: http://arxiv.org/abs/2402.08277v3
- Date: Mon, 26 Feb 2024 11:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:29:09.735385
- Title: Towards Faithful and Robust LLM Specialists for Evidence-Based
Question-Answering
- Title(参考訳): 根拠に基づく質問応答のための忠実でロバストなLLMスペシャリストを目指して
- Authors: Tobias Schimanski, Jingwei Ni, Mathias Kraus, Elliott Ash, Markus
Leippold
- Abstract要約: 我々は、ソースの品質向上と属性応答性向上のために、LLM(Large Language Models)を頑健に微調整する方法について検討する。
具体的には、自動データ品質フィルタを備えたデータ生成パイプラインを導入し、多様な高品質なトレーニングおよびテストデータを大規模に合成する。
総合評価の結果, 合成データの微調整により, 内分布と外分布の両方の性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 11.398230500227017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances towards more faithful and traceable answers of Large Language Models
(LLMs) are crucial for various research and practical endeavors. One avenue in
reaching this goal is basing the answers on reliable sources. However, this
Evidence-Based QA has proven to work insufficiently with LLMs in terms of
citing the correct sources (source quality) and truthfully representing the
information within sources (answer attributability). In this work, we
systematically investigate how to robustly fine-tune LLMs for better source
quality and answer attributability. Specifically, we introduce a data
generation pipeline with automated data quality filters, which can synthesize
diversified high-quality training and testing data at scale. We further
introduce four test sets to benchmark the robustness of fine-tuned specialist
models. Extensive evaluation shows that fine-tuning on synthetic data improves
performance on both in- and out-of-distribution. Furthermore, we show that data
quality, which can be drastically improved by proposed quality filters, matters
more than quantity in improving Evidence-Based QA.
- Abstract(参考訳): 大規模言語モデル(LLM)のより忠実で追跡可能な回答への進歩は、様々な研究や実践に不可欠である。
この目標を達成する1つの道は、信頼できる情報源の答えを基盤にすることです。
しかしながら、このエビデンスに基づくQAは、正しいソース(ソースの品質)を引用し、情報源(属性)内の情報を真に表現するという点で、LLMと不十分に機能することが証明されている。
本研究では,より優れたソース品質と応答帰属性を実現するために,LLMを頑健に微調整する方法を体系的に検討する。
具体的には,多様な高品質なトレーニングと大規模テストデータを合成可能な,自動データ品質フィルタを備えたデータ生成パイプラインを提案する。
さらに,精巧に調整されたスペシャリストモデルのロバスト性を評価するために,4つのテストセットを導入する。
総合評価の結果, 合成データの微調整により, 内分布と外分布の両方の性能が向上することがわかった。
さらに,提案した品質フィルタによって大幅に改善できるデータ品質が,証拠ベースQAの改善に重要であることを示す。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - How Reliable Is Human Feedback For Aligning Large Language Models? [24.66495636695214]
我々は総合的な研究を行い、人間のフィードバックデータの詳細な分析を行う。
誤ラベル,主観的嗜好,異なる基準と無害性のしきい値など,信頼性の低い6つの要因を同定する。
本稿では,データ品質を著しく向上させるために,定性解析の洞察に導かれる自動データクリーニング手法である Source-Aware Cleaning を提案する。
論文 参考訳(メタデータ) (2024-10-02T19:03:42Z) - Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation [19.312330150540912]
新たなアプリケーションは、Large Language Models(LLMs)を使用して、検索強化世代(RAG)機能を強化している。
FRAMESは,LLMが現実的な応答を提供する能力をテストするために設計された高品質な評価データセットである。
本稿では,最先端のLLMでもこの課題に対処し,0.40の精度で検索を行なわないことを示す。
論文 参考訳(メタデータ) (2024-09-19T17:52:07Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。