論文の概要: LLM4Tag: Automatic Tagging System for Information Retrieval via Large Language Models
- arxiv url: http://arxiv.org/abs/2502.13481v1
- Date: Wed, 19 Feb 2025 07:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:58:32.384047
- Title: LLM4Tag: Automatic Tagging System for Information Retrieval via Large Language Models
- Title(参考訳): LLM4Tag:大規模言語モデルによる情報検索のための自動タグ付けシステム
- Authors: Ruiming Tang, Chenxu Zhu, Bo Chen, Weipeng Zhang, Menghui Zhu, Xinyi Dai, Huifeng Guo,
- Abstract要約: 大規模言語モデル(LLM)は、多岐にわたる世界知識、意味理解、推論能力のためにタグ付けシステムに適用されている。
パフォーマンスは優れていますが、既存のメソッドには制限があります。
グラフベースのタグリコールモジュールは、小規模で関連性の高いタグセットを効果的かつ包括的に構築するように設計されている。
長期的および短期的な知識注入を伴う正確なタグを生成するために、知識強化タグ生成モジュールが使用される。
タグ信頼度スコアを生成するためにタグ信頼度判定モジュールを導入する。
- 参考スコア(独自算出の注目度): 32.00181672539555
- License:
- Abstract: Tagging systems play an essential role in various information retrieval applications such as search engines and recommender systems. Recently, Large Language Models (LLMs) have been applied in tagging systems due to their extensive world knowledge, semantic understanding, and reasoning capabilities. Despite achieving remarkable performance, existing methods still have limitations, including difficulties in retrieving relevant candidate tags comprehensively, challenges in adapting to emerging domain-specific knowledge, and the lack of reliable tag confidence quantification. To address these three limitations above, we propose an automatic tagging system LLM4Tag. First, a graph-based tag recall module is designed to effectively and comprehensively construct a small-scale highly relevant candidate tag set. Subsequently, a knowledge-enhanced tag generation module is employed to generate accurate tags with long-term and short-term knowledge injection. Finally, a tag confidence calibration module is introduced to generate reliable tag confidence scores. Extensive experiments over three large-scale industrial datasets show that LLM4Tag significantly outperforms the state-of-the-art baselines and LLM4Tag has been deployed online for content tagging to serve hundreds of millions of users.
- Abstract(参考訳): タグシステムは,検索エンジンやレコメンダシステムなど,様々な情報検索アプリケーションにおいて重要な役割を担っている。
近年,Large Language Models (LLM) は,多種多様な世界知識,意味理解,推論能力から,タグ付けシステムに応用されている。
優れたパフォーマンスを達成したにも拘わらず、既存の手法には、関連するタグを網羅的に検索することの難しさ、新しいドメイン固有の知識に適応することの難しさ、信頼できるタグの信頼性の定量化の欠如など、制限がある。
上記の3つの制限に対処するため,自動タグ付けシステム LLM4Tag を提案する。
まず、グラフベースのタグリコールモジュールは、小規模で関連性の高いタグセットを効果的かつ包括的に構築するように設計されている。
その後、長期的かつ短期的な知識注入を伴う正確なタグを生成するために、知識強化タグ生成モジュールが使用される。
最後に、タグ信頼度スコアを生成するためにタグ信頼度判定モジュールを導入する。
3つの大規模産業データセットに対する大規模な実験は、LLM4Tagが最先端のベースラインを大幅に上回っていることを示している。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z) - TagRuler: Interactive Tool for Span-Level Data Programming by
Demonstration [1.4050836886292872]
データプログラミングは、プログラミングの方法を知っているユーザーにのみアクセス可能だった。
我々はTagRulerという新しいツールを構築し、アノテータがプログラミングなしでスパンレベルのラベリング関数を簡単に構築できるようにする。
論文 参考訳(メタデータ) (2021-06-24T04:49:42Z) - Generate, Annotate, and Learn: Generative Models Advance Self-Training
and Knowledge Distillation [58.64720318755764]
Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。
知識蒸留(KD)により、深層ネットワークとアンサンブルの圧縮が可能となり、新しいタスク固有の未ラベルの例について知識を蒸留する際に最良の結果が得られる。
我々は、非条件生成モデルを用いて、ドメイン内の未ラベルデータを合成する「生成、注釈、学習(GAL)」と呼ばれる一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T05:01:24Z) - Limiting Tags Fosters Efficiency [2.6143568807090696]
情報理論を用いてStack Overflow上のタグの記述と検索の効率を追跡する。
タグ付け効率は時間とともに安定するが,タグの内容と記述性は共に増大する。
我々の研究は、オンラインコミュニティにおける情報組織と検索を改善するための政策に関する洞察を提供する。
論文 参考訳(メタデータ) (2021-04-02T12:58:45Z) - A Survey on Recent Advances in Sequence Labeling from Deep Learning
Models [19.753741555478793]
シーケンスラベリングは、様々なタスクを含む基本的な研究課題である。
ディープラーニングは、複雑な機能を自動的に学習する強力な能力のため、シーケンスラベリングタスクに使用されている。
論文 参考訳(メタデータ) (2020-11-13T02:29:50Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。