Fugu-MT 論文翻訳(概要): LongReward: Improving Long-context Large Language Models with AI Feedback

論文の概要: LongReward: Improving Long-context Large Language Models with AI Feedback

arxiv url: http://arxiv.org/abs/2410.21252v1
Date: Mon, 28 Oct 2024 17:50:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.430327
Title: LongReward: Improving Long-context Large Language Models with AI Feedback
Title（参考訳）: LongReward: AIフィードバックによる長文大言語モデルの改善
Authors: Jiajie Zhang, Zhongni Hou, Xin Lv, Shulin Cao, Zhenyu Hou, Yilin Niu, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li,
Abstract要約: LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
参考スコア（独自算出の注目度）: 54.3321542678909
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Though significant advancements have been achieved in developing long-context large language models (LLMs), the compromised quality of LLM-synthesized data for supervised fine-tuning (SFT) often affects the long-context performance of SFT models and leads to inherent limitations. In principle, reinforcement learning (RL) with appropriate reward signals can further enhance models' capacities. However, how to obtain reliable rewards in long-context scenarios remains unexplored. To this end, we propose LongReward, a novel method that utilizes an off-the-shelf LLM to provide rewards for long-context model responses from four human-valued dimensions: helpfulness, logicality, faithfulness, and completeness, each with a carefully designed assessment pipeline. By combining LongReward and offline RL algorithm DPO, we are able to effectively improve long-context SFT models. Our experiments indicate that LongReward not only significantly improves models' long-context performance but also enhances their ability to follow short instructions. We also find that long-context DPO with LongReward and conventional short-context DPO can be used together without hurting either one's performance.
Abstract（参考訳）: LLM(Long-context large language model)の開発において顕著な進歩が見られたが、教師付き微調整(SFT)のためのLLM合成データの品質は、しばしばSFTモデルの長文性能に影響を与え、固有の制限をもたらす。原則として、適切な報酬信号を持つ強化学習(RL)は、モデルの能力をさらに向上させることができる。しかし、長期コンテキストシナリオにおける信頼性の高い報酬を得る方法はまだ解明されていない。そこで,本研究では,LongRewardを提案する。このLongRewardは,既製のLLMを用いて,人間に価値ある4次元の長文モデル応答に対する報酬を与える手法である。 LongRewardアルゴリズムとオフラインRLアルゴリズムのDPOを組み合わせることで、LongReward SFTモデルを効果的に改善することができる。実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。また,LongReward を用いた長文 DPO と従来の短文 DPO が併用可能であることも確認した。

関連論文リスト

Document Reconstruction Unlocks Scalable Long-Context RLVR [60.74632963522131]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の機能強化(長文)のための重要なパラダイムとなっている。我々は,LLMの長期的文脈能力を高めるための教師なしのアプローチについて検討し,重度の人的アノテーションや教師モデルの監督の必要性を排除した。提案手法の有効性をRULERとLongBenchv2の2つのベンチマークで検証した。
論文参考訳（メタデータ） (2026-02-09T03:23:23Z)
LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards [57.993003392037174]
LongRは動的"Think-and-Read"メカニズムを統合することで、長時間コンテキストのパフォーマンスを向上させるフレームワークである。 LongRは様々なRLアルゴリズムのパフォーマンスを継続的に向上する。
論文参考訳（メタデータ） (2026-02-05T15:26:47Z)
LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling [45.520815757751194]
長コンテキストRM評価に特化して設計されたベンチマークであるLong-RewardBenchを紹介する。予備研究により、最先端の生成型RMでさえ、長いコンテキストシナリオにおいて重大な脆弱性を示すことが明らかとなった。本稿では、任意のモデルを堅牢なLong-context RMに効果的にスケールする一般的なマルチステージトレーニング戦略を提案する。
論文参考訳（メタデータ） (2025-10-08T11:48:16Z)
Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning [55.41828729623907]
本稿では,適応型カリキュラム強化学習フレームワーク「Ling-RL: An Adaptive Curriculum Reinforcement Learning」について紹介する。フレームワークは3つの重要なコンポーネントで構成されている。高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、差別的な学習信号を提供するPairwise Comparison Rewardメカニズム、動的参照スケジューリングアプローチである。
論文参考訳（メタデータ） (2025-06-06T05:40:39Z)
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization [49.37607974207405]
LongPOはショート・ツー・ロングの嗜好データを利用して、ショート・コンテクストの機能をロング・コンテクストのタスクに転送する。 LongPOは短文性能を完全に保持し、長文タスクと短文タスクの両方において単純 SFT と DPO をほぼ上回っている。
論文参考訳（メタデータ） (2025-02-19T17:59:03Z)
LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic Data [19.79929012055293]
LongFaithは忠実な長文推論命令データセットを合成するための新しいパイプラインである。基礎的真理と引用に基づく推論のプロンプトを統合することにより、注意散らしを排除し、推論連鎖の精度を向上させる。
論文参考訳（メタデータ） (2025-02-18T06:40:23Z)
Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
本稿では,応答条件付きBradley-Terryモデルを提案する。また、大規模言語モデルの直接ポリシー最適化(DPO)にRc-BTモデルを利用するRc-DPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-02T14:50:25Z)
LIFT: Improving Long Context Understanding Through Long Input Fine-Tuning [35.31849814789343]
本稿では,ロングコンテキストモデリングのための Long Input Fine-Tuning (LIFT) を提案する。 LIFTは、オフライン長文適応の計算負担を伴わずに、長時間入力の効率的な処理を可能にする。このフレームワークは、コンテキスト内学習とLIFT前教師付き微調整を統合することでさらに強化されている。
論文参考訳（メタデータ） (2024-12-18T09:04:55Z)
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。 LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:55Z)
How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。 ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文参考訳（メタデータ） (2024-10-03T16:46:52Z)
LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。我々は合成データを作成する2つの新しい方法を開発した。 LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-02T03:34:41Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文参考訳（メタデータ） (2023-10-05T17:38:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。