論文の概要: Fine-grainedly Synthesize Streaming Data Based On Large Language Models
With Graph Structure Understanding For Data Sparsity
- arxiv url: http://arxiv.org/abs/2403.06139v1
- Date: Sun, 10 Mar 2024 08:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 07:27:30.445241
- Title: Fine-grainedly Synthesize Streaming Data Based On Large Language Models
With Graph Structure Understanding For Data Sparsity
- Title(参考訳): グラフ構造を考慮した大規模言語モデルに基づくデータの微粒化合成
- Authors: Xin Zhang, Linhai Zhang, Deyu Zhou, Guoqiang Xu
- Abstract要約: ユーザデータの膨大さのため、Eコマースプラットフォームにおけるユーザレビューに対する感情分析は、しばしばパフォーマンスの低下に悩まされる。
スパースユーザを3つのカテゴリ(Mid-tail, Long-tail, Extreme)に分類する,詳細なストリーミングデータ合成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.995442293434643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the sparsity of user data, sentiment analysis on user reviews in
e-commerce platforms often suffers from poor performance, especially when faced
with extremely sparse user data or long-tail labels. Recently, the emergence of
LLMs has introduced new solutions to such problems by leveraging graph
structures to generate supplementary user profiles. However, previous
approaches have not fully utilized the graph understanding capabilities of LLMs
and have struggled to adapt to complex streaming data environments. In this
work, we propose a fine-grained streaming data synthesis framework that
categorizes sparse users into three categories: Mid-tail, Long-tail, and
Extreme. Specifically, we design LLMs to comprehensively understand three key
graph elements in streaming data, including Local-global Graph Understanding,
Second-Order Relationship Extraction, and Product Attribute Understanding,
which enables the generation of high-quality synthetic data to effectively
address sparsity across different categories. Experimental results on three
real datasets demonstrate significant performance improvements, with
synthesized data contributing to MSE reductions of 45.85%, 3.16%, and 62.21%,
respectively.
- Abstract(参考訳): ユーザデータのスパースのため、eコマースプラットフォームにおけるユーザレビューに対する感情分析は、特に極めてスパースなユーザデータやロングテールラベルに直面した場合には、パフォーマンスの低下に苦しむことが多い。
近年,LLM の出現により,グラフ構造を利用して補足的なユーザプロファイルを生成する手法が導入された。
しかし,従来のアプローチでは LLM のグラフ理解能力は十分に活用されておらず,複雑なストリーミングデータ環境への適応に苦慮していた。
本研究では,スパースユーザをミドルテール,ロングテール,エクストリームの3つのカテゴリに分類する,詳細なストリーミングデータ合成フレームワークを提案する。
具体的には、ローカル・グロバルグラフ理解、第2次関係抽出、製品属性理解など、ストリーミングデータにおける3つの重要なグラフ要素を包括的に理解するLLMを設計し、高品質な合成データを生成することにより、異なるカテゴリ間の疎結合を効果的に解決する。
3つの実際のデータセットに対する実験結果は、それぞれ45.85%、3.16%、62.21%のMSE削減に寄与する合成データにより、大幅なパフォーマンス向上を示している。
関連論文リスト
- DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models [38.59653405736706]
可変オートエンコーダ(VAE)に基づく制御可能なデータ合成フレームワークDiffLMを紹介する。
我々は,DiffLMが高品質なデータを生成し,ダウンストリームタスクの性能が実データよりも27%向上していることを示す。
論文 参考訳(メタデータ) (2024-11-05T16:47:53Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Let's Ask GNN: Empowering Large Language Model for Graph In-Context Learning [28.660326096652437]
本稿では,逐次テキスト処理とグラフ構造化データのギャップを埋める新しいアプローチであるAskGNNを紹介する。
AskGNNはグラフニューラルネットワーク(GNN)を利用した構造強化レトリバーを使用して、グラフをまたいだラベル付きノードを選択する。
3つのタスクと7つのLLMにわたる実験は、グラフタスクのパフォーマンスにおいてAskGNNが優れていることを示す。
論文 参考訳(メタデータ) (2024-10-09T17:19:12Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - DynLLM: When Large Language Models Meet Dynamic Graph Recommendation [43.05028974086236]
我々はDynLLMと呼ばれる新しいフレームワークを提案し、大規模言語モデルを用いた動的グラフ推薦タスクに対処する。
特に、DynLLMはLLMの力を利用して、履歴購入記録の豊富なテキストの特徴に基づいて、多面的なユーザプロファイルを生成する。
2つの実電子商取引データセットの実験は、幅広い最先端のベースライン手法よりも優れたDynLLMの改善を実証した。
論文 参考訳(メタデータ) (2024-05-13T09:36:17Z) - Addressing Shortcomings in Fair Graph Learning Datasets: Towards a New Benchmark [26.233696733521757]
我々は,幅広い要件を満たす合成,半合成,実世界のデータセット群を開発し,導入する。
これらのデータセットは、関連するグラフ構造や、モデルの公正な評価に不可欠なバイアス情報を含むように設計されている。
データセット全体にわたるグラフ学習手法による広範な実験結果から,これらの手法の性能をベンチマークする上での有効性が示された。
論文 参考訳(メタデータ) (2024-03-09T21:33:26Z) - LLaGA: Large Language and Graph Assistant [73.71990472543027]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。
LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。
実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-13T02:03:26Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Efficient and Scalable Recommendation via Item-Item Graph Partitioning [10.390315462253726]
協調フィルタリング(CF)はレコメンダシステムにおいて広く研究されている問題である。
アイテム-イットグラフ分割(ERGP)による効率的かつスケーラブルなレコメンデーションを提案する。
論文 参考訳(メタデータ) (2022-07-13T04:37:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。