論文の概要: GRAM: Fast Fine-tuning of Pre-trained Language Models for Content-based
Collaborative Filtering
- arxiv url: http://arxiv.org/abs/2204.04179v1
- Date: Fri, 8 Apr 2022 17:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-04-11 12:18:09.603261
- Title: GRAM: Fast Fine-tuning of Pre-trained Language Models for Content-based
Collaborative Filtering
- Title(参考訳): GRAM:コンテンツベース協調フィルタリングのための事前学習言語モデルの高速微調整
- Authors: Yoonseok Yang, Kyu Seok Kim, Minsam Kim, Juneyoung Park
- Abstract要約: コンテンツベース協調フィルタリングのためのGRAM(GRADient Accumulation for Multi-modality)を提案する。
GRAMは、知識トレースとニュースレコメンデーションの2つのタスク領域から5つのデータセットに基づいて、トレーニング効率を著しく向上させる。
- 参考スコア(独自算出の注目度): 0.7742297876120561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content-based collaborative filtering (CCF) provides personalized item
recommendations based on both users' interaction history and items' content
information. Recently, pre-trained language models (PLM) have been used to
extract high-quality item encodings for CCF. However, it is resource-intensive
to finetune PLM in an end-to-end (E2E) manner in CCF due to its multi-modal
nature: optimization involves redundant content encoding for interactions from
users. For this, we propose GRAM (GRadient Accumulation for Multi-modality):
(1) Single-step GRAM which aggregates gradients for each item while maintaining
theoretical equivalence with E2E, and (2) Multi-step GRAM which further
accumulates gradients across multiple training steps, with less than 40\% GPU
memory footprint of E2E. We empirically confirm that GRAM achieves a remarkable
boost in training efficiency based on five datasets from two task domains of
Knowledge Tracing and News Recommendation, where single-step and multi-step
GRAM achieve 4x and 45x training speedup on average, respectively.
- Abstract(参考訳): コンテンツベースの協調フィルタリング(CCF)は、ユーザのインタラクション履歴とアイテムのコンテンツ情報の両方に基づいて、パーソナライズされたアイテムレコメンデーションを提供する。
近年、CCFのための高品質なアイテムエンコーディングの抽出にPLM(Pre-trained Language Model)が用いられている。
しかし、マルチモーダルな性質から、plmをエンド・ツー・エンド(e2e)方式でccfで微調整することはリソース集約的である。
そこで本研究では,(1)E2Eとの理論的等価性を保ちながら各項目の勾配を集約するシングルステップGRAM,(2)E2Eの40倍のGPUメモリフットプリントを有する複数のトレーニングステップにまたがって勾配を蓄積するマルチステップGRAMを提案する。
GRAMは2つのタスク領域である知識トラシングとニュースレコメンデーションの5つのデータセットに基づいて,それぞれ1ステップのGRAMと複数ステップのGRAMが平均4倍,45倍のトレーニングスピードアップを達成することにより,トレーニング効率が著しく向上することを確認した。
関連論文リスト
- DINOv2-powered Few-Shot Semantic Segmentation: A Unified Framework via Cross-Model Distillation and 4D Correlation Mining [30.564216896513596]
セマンティックセグメンテーションは、その一般化能力によって関心が高まっている。
近年,表現の伝達性向上のための基礎モデルが提案されている。
DINOv2エンコーダと軽量セグメンタのみを備えたFS-DINOを提案する。
論文 参考訳(メタデータ) (2025-04-22T07:47:06Z) - CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - Open-Qwen2VL: Compute-Efficient Pre-Training of Fully-Open Multimodal LLMs on Academic Resources [36.525767435183845]
我々は,29M画像テキストペア上で効率よく事前学習された完全オープンソース2BパラメータであるOpen-Qwen2VLを紹介する。
トレーニングは、Qwen2-VLの1.4Tマルチモーダル事前学習トークンの0.36%である5B充填マルチモーダルトークンにおいて、学術レベル8xA100-40Gで実施された。
最後の命令調整されたOpen-Qwen2VLは、様々なマルチモーダルベンチマークで部分的にオープンなMLLM Qwen2-VL-2Bより優れている。
論文 参考訳(メタデータ) (2025-04-01T09:54:00Z) - COSMIC: Clique-Oriented Semantic Multi-space Integration for Robust CLIP Test-Time Adaptation [3.8212877227467548]
近年の視覚言語モデル(VLM)は、新しい領域へのテスト時間適応において大きな課題に直面している。
マルチグラニュラー・クロスモーダルなセマンティックキャッシングによる適応性を向上させる,堅牢なテスト時間適応フレームワークであるCOSMICを提案する。
我々のフレームワークは、Dual Semantics Graph(DSG)とClique Guided Hyper-class(CGH)の2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-03-30T10:34:45Z) - InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model [80.93387166769679]
IXC-2.5-Rewardは、大規模視覚言語モデルと人間の好みを一致させる、単純で効果的なマルチモーダル報酬モデルである。
IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークにおいて優れた結果を得るとともに、テキストのみの報酬モデルベンチマーク上での競合性能を示す。
論文 参考訳(メタデータ) (2025-01-21T18:47:32Z) - On Domain-Specific Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。
データ合成、トレーニングパイプライン、タスク評価に重点を置いています。
バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文 参考訳(メタデータ) (2024-11-29T18:42:28Z) - freePruner: A Training-free Approach for Large Multimodal Model Acceleration [23.561529800086454]
freePrunerはトレーニング不要のトークン削減アプローチで、追加のトレーニングなしでオープンソースLMMに直接適用することができる。
実験によると、FreePrunerはメインストリームの視覚的質問応答ベンチマークで同等のパフォーマンスを維持しながら、2倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-11-23T04:25:16Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - RAG-Enhanced Commit Message Generation [8.858678357308726]
コミットメッセージ生成は研究ホットスポットになっている。
手動でコミットメッセージを書くのに時間がかかります。
本稿では,Retrieval-Augmented framework for CommiTメッセージ生成のためのREACTを提案する。
論文 参考訳(メタデータ) (2024-06-08T16:24:24Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - G-Meta: Distributed Meta Learning in GPU Clusters for Large-Scale
Recommender Systems [16.343248795178685]
本稿では,textbfGPUクラスタ上での最適化に基づくメタDLRMモデルの大規模トレーニングのためのフレームワークを提供する。
各種実験結果から,G-Metaは,統計的性能を損なうことなく,顕著なトレーニング速度を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-09T03:35:43Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - TF-DCon: Leveraging Large Language Models (LLMs) to Empower Training-Free Dataset Condensation for Content-Based Recommendation [28.567219434790875]
コンテンツベースのレコメンデーション(CBR)のモダンなテクニックは、アイテムコンテンツ情報を活用して、ユーザにパーソナライズされたサービスを提供するが、大規模なデータセットでのリソース集約的なトレーニングに苦しむ。
そこで我々は,大規模なデータセットで訓練されたデータセットに匹敵する性能をモデルが達成できるような,小さいが情報に富むデータセットを合成するために,データセット凝縮を提案する。
データセットのサイズを95%削減しながら、元のパフォーマンスの97%を近似することができます(すなわち、データセットMIND上で)。
論文 参考訳(メタデータ) (2023-10-15T16:15:07Z) - Enhancing Text-based Knowledge Graph Completion with Zero-Shot Large Language Models: A Focus on Semantic Enhancement [8.472388165833292]
KGC(CP-KGC)のための制約付きプロンプトというフレームワークを導入する。
このフレームワークは、セマンティック・リッチネスを高めるために、異なるデータセットに適応するプロンプトを設計する。
本研究は,既存のモデルの性能限界を拡張し,KGCと大規模言語モデルとのさらなる統合を促進する。
論文 参考訳(メタデータ) (2023-10-12T12:31:23Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。