論文の概要: ITDR: An Instruction Tuning Dataset for Enhancing Large Language Models in Recommendations
- arxiv url: http://arxiv.org/abs/2508.05667v1
- Date: Fri, 01 Aug 2025 23:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.911007
- Title: ITDR: An Instruction Tuning Dataset for Enhancing Large Language Models in Recommendations
- Title(参考訳): ITDR:リコメンデーションにおける大規模言語モデルの強化のためのインストラクションチューニングデータセット
- Authors: Zekun Liu, Xiaowen Huang, Jitao Sang,
- Abstract要約: そこで本研究では,2つのコアルートタスクにまたがる7つのサブタスクを含む,十分な命令チューニングデータセット ITDR を構築した。
このデータセットは、13のパブリックレコメンデーションデータセットからのデータを統合し、手作業で標準化されたテンプレートを使用して構築される。
実験の結果,ITDR は主要なオープンソース LLM の性能を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 14.646529557978512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated outstanding performance in natural language processing tasks. However, in the field of recommendation systems, due to the structural differences between user behavior data and natural language, LLMs struggle to effectively model the associations between user preferences and items. Although prompt-based methods can generate recommendation results, their inadequate understanding of recommendation tasks leads to constrained performance. To address this gap, in this work, we construct a sufficient instruction tuning dataset, ITDR, which encompasses 7 subtasks across two core root tasks--user-item interaction and user-item understanding. The dataset integrates data from 13 public recommendation datasets and is built using manually crafted standardized templates, comprising approximately 200,000 instances. Experimental results demonstrate that ITDR significantly enhances the performance of mainstream open-source LLMs such as GLM-4, Qwen2.5, Qwen2.5-Instruct and LLaMA-3.2 on recommendation tasks. Furthermore, we analyze the correlations between tasks and explore the impact of task descriptions and data scale on instruction tuning effectiveness. Finally, we perform comparative experiments against closed-source LLMs with substantial parameters. Our tuning dataset ITDR and the fine-tuned large recommendation models can be accessed at https://github.com/hellolzk/ITDR.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理タスクにおいて優れた性能を示した。
しかし,レコメンデーションシステムの分野では,ユーザ行動データと自然言語の構造的差異のため,LLMはユーザの嗜好とアイテムの関係を効果的にモデル化することに苦慮している。
プロンプトベースの手法はレコメンデーション結果を生成することができるが、レコメンデーションタスクの理解が不十分なため、性能が制約される。
このギャップに対処するため,本研究では,2つの根本タスク(ユーザ・イテムインタラクションとユーザ・イテム理解)にまたがる7つのサブタスクを含む,十分なインストラクションチューニングデータセット ITDR を構築した。
このデータセットは、13のパブリックレコメンデーションデータセットからのデータを統合し、約20万のインスタンスで構成される、手作業による標準化テンプレートを使用して構築される。
実験の結果,ITDR は GLM-4, Qwen2.5, Qwen2.5-Instruct, LLaMA-3.2 などのオープンソース LLM のレコメンデーションタスクにおける性能を著しく向上させることがわかった。
さらに,タスク間の相関関係を解析し,タスク記述とデータスケールが指導調律効果に与える影響について検討する。
最後に,かなりのパラメータを持つ閉ソースLLMの比較実験を行った。
チューニングデータセットITDRと微調整された大規模なレコメンデーションモデルはhttps://github.com/hellolzk/ITDRでアクセスできます。
関連論文リスト
- Beyond QA Pairs: Assessing Parameter-Efficient Fine-Tuning for Fact Embedding in LLMs [0.0]
本稿では,質問応答対をFactualクラスとConceptualクラスに分類することで,微調整プロセスの改善に焦点をあてる。
2つの異なるLlama-2モデルはこれらの分類に基づいて微調整され、GPT-3.5 TurboやGeminiのような大型モデルを用いて評価される。
以上の結果から,概念データセットでトレーニングされたモデルは,実データセットでトレーニングしたモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-03-03T03:26:30Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Robust Prompt Optimization for Large Language Models Against
Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。
本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。
この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文 参考訳(メタデータ) (2023-05-23T11:30:43Z) - Recommendation as Instruction Following: A Large Language Model
Empowered Recommendation Approach [83.62750225073341]
我々は、大規模言語モデル(LLM)による指示としてレコメンデーションを考える。
まず、ユーザの好み、意図、タスクフォーム、コンテキストを自然言語で記述するための一般的な命令形式を設計する。
そして、39の命令テンプレートを手動で設計し、大量のユーザ個人化された命令データを自動的に生成する。
論文 参考訳(メタデータ) (2023-05-11T17:39:07Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。