論文の概要: From General to Targeted Rewards: Surpassing GPT-4 in Open-Ended Long-Context Generation
- arxiv url: http://arxiv.org/abs/2506.16024v1
- Date: Thu, 19 Jun 2025 04:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.941167
- Title: From General to Targeted Rewards: Surpassing GPT-4 in Open-Ended Long-Context Generation
- Title(参考訳): 一般からターゲットリワードへ:オープンエンド長文生成におけるGPT-4の通過
- Authors: Zhihan Guo, Jiele Wu, Wenqian Cui, Yifei Zhang, Minda Hu, Yufei Wang, Irwin King,
- Abstract要約: 本稿では、データセットと報奨信号計算方法を含む革新的強化学習(RL)ベースのフレームワークであるProxyRewardを紹介する。
本研究は,人間による複雑なオープンエンド質問に対処するLLMの能力を高める効果的な方法を提案する。
- 参考スコア(独自算出の注目度): 36.53821084272633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current research on long-form context in Large Language Models (LLMs) primarily focuses on the understanding of long-contexts, the Open-ended Long Text Generation (Open-LTG) remains insufficiently explored. Training a long-context generation model requires curation of gold standard reference data, which is typically nonexistent for informative Open-LTG tasks. However, previous methods only utilize general assessments as reward signals, which limits accuracy. To bridge this gap, we introduce ProxyReward, an innovative reinforcement learning (RL) based framework, which includes a dataset and a reward signal computation method. Firstly, ProxyReward Dataset generation is accomplished through simple prompts that enables the model to create automatically, obviating extensive labeled data or significant manual effort. Secondly, ProxyReward Signal offers a targeted evaluation of information comprehensiveness and accuracy for specific questions. The experimental results indicate that our method ProxyReward surpasses even GPT-4-Turbo. It can significantly enhance performance by 20% on the Open-LTG task when training widely used open-source models, while also surpassing the LLM-as-a-Judge approach. Our work presents effective methods to enhance the ability of LLMs to address complex open-ended questions posed by human.
- Abstract(参考訳): 大規模言語モデル (LLM) における長文文脈に関する最近の研究は、主に長文理解に焦点を当てているが、オープンエンド長文生成 (Open-LTG) は未だ十分に研究されていない。
長文生成モデルの訓練には、金の標準基準データのキュレーションが必要であるが、これは通常、情報的なOpen-LTGタスクには存在しない。
しかし、従来の手法では報酬信号として一般的な評価しか利用せず、精度は制限されていた。
このギャップを埋めるために、データセットと報酬信号計算方法を含む革新的強化学習(RL)ベースのフレームワークであるProxyRewardを導入する。
第一に、ProxyReward Dataset生成は単純なプロンプトによって達成され、モデルが自動的に作成し、ラベル付けされた広範囲なデータや重要な手作業を避けることができる。
第二に、ProxyReward Signalは特定の質問に対する情報包括性と精度の目標評価を提供する。
ProxyReward 法は GPT-4-Turbo よりも優れていた。
LLM-as-a-Judgeアプローチを超越しながら、広く使われているオープンソースモデルをトレーニングする場合、Open-LTGタスクのパフォーマンスを20%向上させることができる。
本研究は,人間による複雑なオープンエンド質問に対処するLLMの能力を高める効果的な方法を提案する。
関連論文リスト
- GenKI: Enhancing Open-Domain Question Answering with Knowledge Integration and Controllable Generation in Large Language Models [75.25348392263676]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning [80.27561080938747]
本研究では,人間のアノテーションを使わずに,大規模言語モデル(LLM)の短文および長文生成タスクにおける忠実度を改善するための体系的フレームワークであるCANOEを提案する。
また,ルールに基づく強化学習手法であるDual-GRPOを提案する。
実験結果から,CANOEは11の下流タスクにまたがるLLMの忠実度を大幅に向上し,最も先進的なLLMよりも優れていた。
論文 参考訳(メタデータ) (2025-05-22T10:10:07Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models [23.68266151581951]
Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の実際の精度を高めることが示されている。
既存の手法は、抽出された証拠を効果的に活用する際の限定的な推論能力に悩まされることが多い。
我々は,オープンソースLLMを用いたRAGにおける推論能力の向上を目的とした,新しいフレームワークであるOpen-RAGを紹介する。
論文 参考訳(メタデータ) (2024-10-02T17:37:18Z) - W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
W-RAGは、下流タスクから弱いトレーニング信号を抽出し、検索者がタスクに最も利益をもたらすパスを優先順位付けするように微調整する手法である。
我々は4つの公開可能なOpenQAデータセットの包括的な実験を行い、我々のアプローチが検索とOpenQAのパフォーマンスを向上させることを実証した。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。