論文の概要: Smart ETL and LLM-based contents classification: the European Smart Tourism Tools Observatory experience
- arxiv url: http://arxiv.org/abs/2410.18641v1
- Date: Thu, 24 Oct 2024 11:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:43:32.754191
- Title: Smart ETL and LLM-based contents classification: the European Smart Tourism Tools Observatory experience
- Title(参考訳): スマートETLとLCMに基づくコンテンツ分類:欧州スマートツーリズム・ツール・オブザーバの経験
- Authors: Diogo Cosme, António Galvão, Fernando Brito e Abreu,
- Abstract要約: 本研究プロジェクトは、オンラインの欧州スマートツーリズムツール(STT)のコンテンツ更新の改善に焦点を当てている。
STTを記述する内容はPDFカタログから派生し、PDFスクレイピング技術はQRコード、画像、リンク、テキスト情報を抽出する。
STTを天文台にインポートするプロセスは、PDFスクラッピング技術とLarge Language Modelsを組み合わせてテキストコンテンツに基づく分類を行う。
- 参考スコア(独自算出の注目度): 45.498315114762484
- License:
- Abstract: Purpose: Our research project focuses on improving the content update of the online European Smart Tourism Tools (STTs) Observatory by incorporating and categorizing STTs. The categorization is based on their taxonomy, and it facilitates the end user's search process. The use of a Smart ETL (Extract, Transform, and Load) process, where \emph{Smart} indicates the use of Artificial Intelligence (AI), is central to this endeavor. Methods: The contents describing STTs are derived from PDF catalogs, where PDF-scraping techniques extract QR codes, images, links, and text information. Duplicate STTs between the catalogs are removed, and the remaining ones are classified based on their text information using Large Language Models (LLMs). Finally, the data is transformed to comply with the Dublin Core metadata structure (the observatory's metadata structure), chosen for its wide acceptance and flexibility. Results: The Smart ETL process to import STTs to the observatory combines PDF-scraping techniques with LLMs for text content-based classification. Our preliminary results have demonstrated the potential of LLMs for text content-based classification. Conclusion: The proposed approach's feasibility is a step towards efficient content-based classification, not only in Smart Tourism but also adaptable to other fields. Future work will mainly focus on refining this classification process.
- Abstract(参考訳): 目的:本研究プロジェクトは,STTを取り入れて分類することで,STT(Europe Smart Tourism Tools)観測所のコンテンツ更新を改善することに焦点を当てる。
分類は分類に基づいており、エンドユーザの検索プロセスを容易にする。
スマートETL(Extract, Transform, and Load)プロセスの使用は、人工知能(AI)の使用を示す。
メソッド: STTを記述したコンテンツはPDFカタログから派生し、PDFスクレイピング技術はQRコード、画像、リンク、テキスト情報を抽出する。
カタログ間の重複STTを除去し、その残りをLarge Language Models (LLMs) を用いてテキスト情報に基づいて分類する。
最後に、データは、幅広い受け入れと柔軟性のために選択されたDublin Coreメタデータ構造(オブザーバのメタデータ構造)に適合するように変換される。
結果:STTを天文台にインポートするスマートETLプロセスは,PDFスクラッピング技術とLLMを組み合わせてテキストコンテンツに基づく分類を行う。
予備的な結果は,テキストコンテンツに基づく分類におけるLLMの可能性を実証した。
結論:提案されたアプローチの実現性は,スマートツーリズムだけでなく,他の分野にも適応可能な,効率的なコンテンツベース分類へのステップである。
今後の研究は、主にこの分類プロセスを精査することに焦点を当てる。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Text Clustering as Classification with LLMs [6.030435811868953]
本研究では,大規模言語モデル(LLM)の文脈内学習能力を効果的に活用する,テキストクラスタリングのための新しいフレームワークを提案する。
そこで本研究では,テキストクラスタリングをLLMによる分類タスクに変換することを提案する。
我々のフレームワークは、最先端のクラスタリング手法に匹敵する、あるいは優れた性能を達成できることが実験的に証明されている。
論文 参考訳(メタデータ) (2024-09-30T16:57:34Z) - Exploiting the Semantic Knowledge of Pre-trained Text-Encoders for Continual Learning [70.64617500380287]
継続的な学習は、モデルが学習した知識を維持しながら、新しいデータから学習することを可能にする。
画像のラベル情報で利用できるセマンティック知識は、以前に取得したセマンティッククラスの知識と関連する重要なセマンティック情報を提供する。
テキスト埋め込みを用いて意味的類似性を把握し,タスク内およびタスク間のセマンティックガイダンスの統合を提案する。
論文 参考訳(メタデータ) (2024-08-02T07:51:44Z) - TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - Zero-Shot Topic Classification of Column Headers: Leveraging LLMs for Metadata Enrichment [0.0]
本稿では,3つの大規模言語モデル(LLM)によって生成されたトピックアノテーション(ChatGPT-3.5, GoogleBard, GoogleGemini)を用いてメタデータの充実を支援する手法を提案する。
文脈情報(データセット記述)が分類結果に与える影響を評価する。
論文 参考訳(メタデータ) (2024-03-01T10:01:36Z) - TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision [41.05874642535256]
階層的なテキスト分類は、ラベル分類における各文書を一連のクラスに分類することを目的としている。
初期の研究は、大量の人間の注釈付きデータを必要とする完全または半教師付き手法に重点を置いていた。
我々は、最小限の監督量で階層的なテキスト分類に取り組んでおり、各ノードのクラス名のみを唯一の監督として使用しています。
論文 参考訳(メタデータ) (2024-02-29T22:26:07Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。