論文の概要: Reasoning-Enhanced Self-Training for Long-Form Personalized Text Generation
- arxiv url: http://arxiv.org/abs/2501.04167v1
- Date: Tue, 07 Jan 2025 22:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:58.971386
- Title: Reasoning-Enhanced Self-Training for Long-Form Personalized Text Generation
- Title(参考訳): 長期パーソナライズされたテキスト生成のための推論強化自己学習
- Authors: Alireza Salemi, Cheng Li, Mingyang Zhang, Qiaozhu Mei, Weize Kong, Tao Chen, Zhuowan Li, Michael Bendersky, Hamed Zamani,
- Abstract要約: REST-PG(Reasoning-Enhanced Self-Training for Text Personalized Generation)は、応答生成中の個人データを推論するようにLCMをトレーニングするフレームワークである。
個人化された4つの長文テキスト生成タスクからなるLongLaMPベンチマークでREST-PGを評価した。
- 参考スコア(独自算出の注目度): 38.36527758138711
- License:
- Abstract: Personalized text generation requires a unique ability of large language models (LLMs) to learn from context that they often do not encounter during their standard training. One way to encourage LLMs to better use personalized context for generating outputs that better align with the user's expectations is to instruct them to reason over the user's past preferences, background knowledge, or writing style. To achieve this, we propose Reasoning-Enhanced Self-Training for Personalized Text Generation (REST-PG), a framework that trains LLMs to reason over personal data during response generation. REST-PG first generates reasoning paths to train the LLM's reasoning abilities and then employs Expectation-Maximization Reinforced Self-Training to iteratively train the LLM based on its own high-reward outputs. We evaluate REST-PG on the LongLaMP benchmark, consisting of four diverse personalized long-form text generation tasks. Our experiments demonstrate that REST-PG achieves significant improvements over state-of-the-art baselines, with an average relative performance gain of 14.5% on the benchmark.
- Abstract(参考訳): パーソナライズされたテキスト生成は、大きな言語モデル(LLM)のユニークな能力を必要とする。
LLMがユーザの期待に合うアウトプットを生成するためにパーソナライズされたコンテキストをよりよく使うように奨励する1つの方法は、ユーザの過去の好み、バックグラウンド知識、あるいは書き込みスタイルを推論するように指示することである。
これを実現するために、応答生成中の個人データに対するLLMの推論を行うフレームワークであるReasoning-Enhanced Self-Training for Personalized Text Generation (REST-PG)を提案する。
REST-PG はまず LLM の推論能力をトレーニングするための推論パスを生成し、次に期待最大化強化自己訓練を使用して、自身の高逆出力に基づいて LLM を反復的にトレーニングする。
個人化された4つの長文テキスト生成タスクからなるLongLaMPベンチマークでREST-PGを評価した。
我々の実験では、REST-PGは最先端のベースラインよりも大幅に改善され、ベンチマークの平均相対的なパフォーマンスは14.5%向上した。
関連論文リスト
- Large Language Models Can Self-Improve in Long-context Reasoning [100.52886241070907]
大規模言語モデル(LLM)は、長いコンテキストの処理においてかなりの進歩を遂げているが、それでも長いコンテキストの推論に苦慮している。
我々はこの目的のために特別に設計されたアプローチである我々の提案する。
人類の専門家や 先進的なモデルによるデータに依存する 従来のアプローチと比べて 優れたパフォーマンスを達成しています
論文 参考訳(メタデータ) (2024-11-12T19:53:00Z) - Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - PersonalLLM: Tailoring LLMs to Individual Preferences [11.717169516971856]
我々は、特定のユーザに対して最大限のメリットを提供するためにLLMを適用することに焦点を当てた、PersonalLLMという公開ベンチマークを提示する。
我々は、ユーザーが不均一な潜伏傾向を示すことを期待する高品質な回答と組み合わせたオープンエンドプロンプトをキュレートする。
私たちのデータセットと生成された個人性は、パーソナライズアルゴリズムを開発するための革新的なテストベッドを提供します。
論文 参考訳(メタデータ) (2024-09-30T13:55:42Z) - HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models [89.28591263741973]
長文生成における大規模言語モデルの性能を評価するために,階層長文生成ベンチマーク(HelloBench)を導入する。
HelloBenchはブルームの分類に基づいて、長いテキスト生成タスクをオープンエンドQA、要約、チャット、テキスト補完、テキスト生成の5つのサブタスクに分類する。
また,人的評価に要する時間と労力を大幅に削減する人的評価手法である階層的長文評価(HelloEval)を提案する。
論文 参考訳(メタデータ) (2024-09-24T15:38:11Z) - Guided Profile Generation Improves Personalization with LLMs [3.2685922749445617]
勧告、ランク付け、Eコマースプラットフォームを含む現代の商業システムでは、パーソナライズコンテキストを大型言語モデル(LLM)への入力として取り入れる傾向にある。
本稿では,自然言語で個人プロファイルを生成するための汎用手法であるGPGを提案する。
実験の結果,GAGはLLMのパーソナライズ能力を向上させることが示され,例えば,LLMを生の個人的コンテキストで直接供給するよりも,個人の嗜好を予測する上で37%の精度が向上することがわかった。
論文 参考訳(メタデータ) (2024-09-19T21:29:56Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。