論文の概要: A Comparison of LLM Finetuning Methods & Evaluation Metrics with Travel Chatbot Use Case
- arxiv url: http://arxiv.org/abs/2408.03562v1
- Date: Wed, 7 Aug 2024 05:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:43:46.311572
- Title: A Comparison of LLM Finetuning Methods & Evaluation Metrics with Travel Chatbot Use Case
- Title(参考訳): LLMファインタニング法と評価基準と旅行チャットボット使用例の比較
- Authors: Sonia Meyer, Shreya Singh, Bertha Tam, Christopher Ton, Angel Ren,
- Abstract要約: 本研究では,大規模言語モデル (LLM) の微調整手法について比較する。例えば,量子化低ランク適応器 (QLoRA) ,検索拡張微調整 (RAFT) ,人間フィードバックからの強化学習 (RLHF) などである。
旅行データセットは、旅行関連のサブレディットからの投稿をリクエストして、旅行関連の会話プロンプトとパーソナライズされた旅行体験を取得することでReddit APIからソースされた。
人的評価による最良のモデルといくつかのGPT-4指標はMistral RAFTであり、それによってRLHF(Reinforcement Learning from Human Feedback)トレーニングパイプラインが実行され、最終的には最高の評価を受けた。
- 参考スコア(独自算出の注目度): 0.3495246564946556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research compares large language model (LLM) fine-tuning methods, including Quantized Low Rank Adapter (QLoRA), Retrieval Augmented fine-tuning (RAFT), and Reinforcement Learning from Human Feedback (RLHF), and additionally compared LLM evaluation methods including End to End (E2E) benchmark method of "Golden Answers", traditional natural language processing (NLP) metrics, RAG Assessment (Ragas), OpenAI GPT-4 evaluation metrics, and human evaluation, using the travel chatbot use case. The travel dataset was sourced from the the Reddit API by requesting posts from travel-related subreddits to get travel-related conversation prompts and personalized travel experiences, and augmented for each fine-tuning method. We used two pretrained LLMs utilized for fine-tuning research: LLaMa 2 7B, and Mistral 7B. QLoRA and RAFT are applied to the two pretrained models. The inferences from these models are extensively evaluated against the aforementioned metrics. The best model according to human evaluation and some GPT-4 metrics was Mistral RAFT, so this underwent a Reinforcement Learning from Human Feedback (RLHF) training pipeline, and ultimately was evaluated as the best model. Our main findings are that: 1) quantitative and Ragas metrics do not align with human evaluation, 2) Open AI GPT-4 evaluation most aligns with human evaluation, 3) it is essential to keep humans in the loop for evaluation because, 4) traditional NLP metrics insufficient, 5) Mistral generally outperformed LLaMa, 6) RAFT outperforms QLoRA, but still needs postprocessing, 7) RLHF improves model performance significantly. Next steps include improving data quality, increasing data quantity, exploring RAG methods, and focusing data collection on a specific city, which would improve data quality by narrowing the focus, while creating a useful product.
- Abstract(参考訳): 本研究は,大規模言語モデル (LLM) の微調整手法である量子化低ランク適応器 (QLoRA) やRetrieval Augmented Fine-tuning (RAFT) ,Reinforcement Learning from Human Feedback (RLHF) などを比較し,従来の自然言語処理 (NLP) メトリクス,RAGアセスメント (Ragas) メトリクス,OpenAI GPT-4 評価指標,旅行チャットボットのユースケースを用いた人的評価方法と比較した。
旅行データセットは、旅行関連のサブレディットからの投稿をリクエストして、旅行関連の会話プロンプトとパーソナライズされた旅行体験を取得し、それぞれの微調整方法に拡張することでReddit APIからソースされた。
LLaMa 2 7B と Mistral 7B の2種類のプレトレーニング LLM を用いて微調整を行った。
QLoRAとRAFTは2つの事前訓練されたモデルに適用される。
これらのモデルからの推測は、上記の指標に対して広範囲に評価される。
人的評価といくつかのGPT-4指標による最良のモデルがMistral RAFTであり、それによってRLHF(Reinforcement Learning from Human Feedback)トレーニングパイプラインが実行され、最終的には最良のモデルとして評価された。
私たちの主な発見は以下のとおりです。
1)定量的かつRagasメトリクスは人的評価と一致しない。
2)オープンAI GPT-4の評価は人的評価に最も適している。
3) 評価のためには,人間をループに留めておくことが不可欠である。
4)従来のNLP指標は不十分である。
5)ミストラルは一般的にLLaMaより優れていた。
6)RAFTはQLoRAより優れていますが、それでも後処理が必要です。
7) RLHFはモデル性能を大幅に改善する。
次のステップには、データ品質の改善、データ量の増加、RAGメソッドの探索、特定の都市におけるデータ収集の集中などが含まれます。
関連論文リスト
- How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Post-hoc Reward Calibration: A Case Study on Length Bias [28.266675778940133]
リワードモデル(RM)は、トレーニングデータに突発的な相関を利用してバイアスを発生させることができる。
これらのバイアスは、誤った出力ランキング、準最適モデル評価、望ましくない振る舞いの増幅につながる可能性がある。
本稿では、追加データやトレーニングを使わずにバイアスを修正するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-25T22:30:42Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback [13.154512864498912]
強化学習(RL)と教師付きファインチューニング(SFT)を交互に行う2段階アルゴリズムARESを提案する。
第一に、我々は教師に、各文が問題の解決にどれだけ貢献するかを、CoT(Chain-of-Thought)で得点するように要求する。
次に,教師にRL後の誤った推論の修正を依頼する。補正フィードバックにより,SFTによるRL微調整モデルを安定化する。
論文 参考訳(メタデータ) (2024-06-25T07:20:11Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Efficient Finetuning Large Language Models For Vietnamese Chatbot [1.2075778142867704]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な性能を発揮することが示されている。
Alpaca、GPT4All、Chat-Doctorなど、オープンソースの大規模インストラクションフォローデータセットを活用しています。
我々は,低ランク適応(LoRA)によるパラメータ効率チューニングを2つのオープンLLM上で行い,その結果,Bloomz-Chat,Bloomz-Doctor,GPTJ-Chat,GPTJ-Doctorの4つのモデルを得た。
論文 参考訳(メタデータ) (2023-09-09T00:11:53Z) - Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。