論文の概要: Abstract2Appendix: Academic Reviews Enhance LLM Long-Context Capabilities
- arxiv url: http://arxiv.org/abs/2411.05232v1
- Date: Thu, 07 Nov 2024 22:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:55:47.177663
- Title: Abstract2Appendix: Academic Reviews Enhance LLM Long-Context Capabilities
- Title(参考訳): Abstract2Appendix: LLMの長期的機能を強化した学術レビュー
- Authors: Shengzhi Li, Kittipat Kampa, Rongyu Lin, Bohang Li, Shichao Pei,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示しているが、長文読み出しの処理能力は依然として困難である。
本研究では, 高品質な学術的査読データを微調整LDMに活用し, 長期的文脈能力を高める効果について検討した。
- 参考スコア(独自算出の注目度): 6.0211447492146
- License:
- Abstract: Large language models (LLMs) have shown remarkable performance across various tasks, yet their ability to handle long-context reading remains challenging. This study explores the effectiveness of leveraging high-quality academic peer review data for fine-tuning LLMs to enhance their long-context capabilities. We compare the Direct Preference Optimization (DPO) method with the Supervised Fine-Tuning (SFT) method, demonstrating DPO's superiority and data efficiency. Our experiments show that the fine-tuned model achieves a 4.04-point improvement over phi-3 and a 2.6\% increase on the Qasper benchmark using only 2000 samples. Despite facing limitations in data scale and processing costs, this study underscores the potential of DPO and high-quality data in advancing LLM performance. Additionally, the zero-shot benchmark results indicate that aggregated high-quality human reviews are overwhelmingly preferred over LLM-generated responses, even for the most capable models like GPT-4o. This suggests that high-quality human reviews are extremely rich in information, reasoning, and long-context retrieval, capabilities that even the most advanced models have not fully captured. These findings highlight the high utility of leveraging human reviews to further advance the field.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示しているが、長文読み出しの処理能力は依然として困難である。
本研究では, 高品質な学術的査読データを微調整LDMに活用し, 長期的文脈能力を高める効果について検討した。
直接選好最適化(DPO)法とスーパービジョンファインチューニング(SFT)法を比較し,DPOの優位性とデータ効率を実証する。
実験の結果,微調整モデルでは phi-3 よりも4.04ポイント向上し,Qasper ベンチマークでは2.6 %向上した。
データスケールと処理コストの制限に直面しながら、DPOと高品質なデータによるLCM性能向上の可能性を強調した。
さらに、ゼロショットベンチマークの結果は、GPT-4oのような最も有能なモデルであっても、集約された高品質な人間レビューの方がLCM生成の応答よりも圧倒的に好まれていることを示している。
これは、高品質な人間レビューは情報、推論、長文検索に非常に富んでいることを示唆している。
これらの知見は、人間のレビューを活用して、さらなる分野の進展を図っている。
関連論文リスト
- Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs [11.24476329991465]
外部ツール使用のための大規模言語モデル(LLM)のトレーニングは、急速に拡大する分野である。
体系的なデータ品質チェックの欠如は、モデルを適切にトレーニングし、テストするための複雑さを引き起こす。
外部ツールを用いたLCMのトレーニングにおいて,データの信頼性を評価するための2つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T17:20:02Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
モデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。
これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文 参考訳(メタデータ) (2024-09-07T13:57:41Z) - A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。
その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文 参考訳(メタデータ) (2024-05-01T16:13:54Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。