論文の概要: LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information
- arxiv url: http://arxiv.org/abs/2502.02095v1
- Date: Tue, 04 Feb 2025 08:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:09.043225
- Title: LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information
- Title(参考訳): LongDPO:批判強化されたステップワイド情報によるLCMのより優れた長周期生成能力
- Authors: Bowen Ping, Jiali Zeng, Fandong Meng, Shuo Wang, Jie Zhou, Shanghang Zhang,
- Abstract要約: 学術論文やリポジトリレベルのコード生成には,長文生成が不可欠だ。
選好学習と結果管理を併用する既存の手法は、拡張された文脈に対して詳細なフィードバックを提供するのに失敗することが多い。
プロセスの監督を取り入れた長文生成の促進を提案する。
- 参考スコア(独自算出の注目度): 76.26257306813899
- License:
- Abstract: Long-form generation is crucial for academic writing papers and repo-level code generation. Despite this, current models, including GPT-4o, still exhibit unsatisfactory performance. Existing methods that utilize preference learning with outcome supervision often fail to provide detailed feedback for extended contexts. This shortcoming can lead to content that does not fully satisfy query requirements, resulting in issues like length deviations, and diminished quality. In this paper, we propose enhancing long-form generation by incorporating process supervision. We employ Monte Carlo Tree Search to gather stepwise preference pairs, utilizing a global memory pool to maintain consistency. To address the issue of suboptimal candidate selection, we integrate external critiques to refine and improve the quality of the preference pairs. Finally, we apply step-level DPO using the collected stepwise preference pairs. Experimental results show that our method improves length and quality on long-form generation benchmarks, with almost lossless performance on general benchmarks across various model backbones.
- Abstract(参考訳): 学術論文やリポジトリレベルのコード生成には,長文生成が不可欠だ。
しかし、GPT-4oを含む現在のモデルは未だに満足のいく性能を示していない。
選好学習と結果管理を併用する既存の手法は、拡張された文脈に対して詳細なフィードバックを提供するのに失敗することが多い。
この欠点は、クエリ要求を完全に満たさないコンテンツにつながり、長さのずれや品質の低下といった問題を引き起こします。
本稿では,プロセスの監督を取り入れた長文生成手法を提案する。
我々はモンテカルロ木探索をステップワイズな選好ペアの収集に利用し、グローバルメモリプールを利用して一貫性を維持する。
最適候補選択の問題に対処するために、我々は、選好ペアの品質を洗練・改善するために外部批判を統合する。
最後に、収集した段階的選好ペアを用いてステップレベルDPOを適用する。
実験結果から,提案手法は,様々なモデルバックボーンにまたがるベンチマークにおいて,ほぼ無害な性能で,長文生成ベンチマークの長文化と品質の向上を図っている。
関連論文リスト
- Abstract2Appendix: Academic Reviews Enhance LLM Long-Context Capabilities [6.0211447492146]
大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示しているが、長文読み出しの処理能力は依然として困難である。
本研究では, 高品質な学術的査読データを微調整LDMに活用し, 長期的文脈能力を高める効果について検討した。
論文 参考訳(メタデータ) (2024-11-07T22:57:02Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - GATEAU: Selecting Influential Sample for Long Context Alignment [62.87020831987625]
GATEAUは、長距離依存関係に富む影響力のあるサンプルを同定する。
実験結果から, GATEAUは有効に有効なサンプルを同定し, これらのサンプルに基づいてトレーニングしたモデルにより, より優れた指示追従能力と長文理解能力を示すことが示された。
論文 参考訳(メタデータ) (2024-10-21T04:30:53Z) - Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG [36.754491649652664]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)に外部の知識ソースを利用する権限を与える。
本稿では, 回収した「ハードネガティブ」の有害な影響について考察する。
これを緩和し、長文LLMベースのRAGの堅牢性を高めるために、トレーニングフリーとトレーニングベースの両方のアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:30:07Z) - HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。