論文の概要: Text classification of column headers with a controlled vocabulary:
leveraging LLMs for metadata enrichment
- arxiv url: http://arxiv.org/abs/2403.00884v2
- Date: Tue, 5 Mar 2024 13:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 11:27:49.836342
- Title: Text classification of column headers with a controlled vocabulary:
leveraging LLMs for metadata enrichment
- Title(参考訳): 制御語彙を持つ列ヘッダのテキスト分類-メタデータの充実にLLMを活用する
- Authors: Margherita Martorana, Tobias Kuhn, Lise Stork, Jacco van Ossenbruggen
- Abstract要約: 本稿では,3つのLarge Language Model (LLM) を用いて,列ヘッダのトピックアノテーションを用いたメタデータの充実を支援する手法を提案する。
本研究では, LLMの内部整合性, マシン間アライメント, トピック分類タスクに対する人間と機械の合意性を評価することによって, アプローチを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional dataset retrieval systems index on metadata information rather
than on the data values. Thus relying primarily on manual annotations and
high-quality metadata, processes known to be labour-intensive and challenging
to automate. We propose a method to support metadata enrichment with topic
annotations of column headers using three Large Language Models (LLMs):
ChatGPT-3.5, GoogleBard and GoogleGemini. We investigate the LLMs ability to
classify column headers based on domain-specific topics from a controlled
vocabulary. We evaluate our approach by assessing the internal consistency of
the LLMs, the inter-machine alignment, and the human-machine agreement for the
topic classification task. Additionally, we investigate the impact of
contextual information (i.e. dataset description) on the classification
outcomes. Our results suggest that ChatGPT and GoogleGemini outperform
GoogleBard for internal consistency as well as LLM-human-alignment.
Interestingly, we found that context had no impact on the LLMs performances.
This work proposes a novel approach that leverages LLMs for text classification
using a controlled topic vocabulary, which has the potential to facilitate
automated metadata enrichment, thereby enhancing dataset retrieval and the
Findability, Accessibility, Interoperability and Reusability (FAIR) of research
data on the Web.
- Abstract(参考訳): 従来のデータセット検索システムは、データ値ではなくメタデータ情報をインデックスする。
したがって、主に手動のアノテーションと高品質なメタデータに依存し、労働集約的で自動化が難しいことが知られているプロセスである。
本稿では,3つのLarge Language Model (LLM) を用いた列ヘッダのトピックアノテーションによるメタデータの充実を支援する手法を提案する。
制御語彙からドメイン固有のトピックに基づいて列ヘッダを分類するLLM機能について検討する。
本研究では, LLMの内部整合性, マシン間アライメント, トピック分類タスクに対する人間と機械の合意性を評価することによって, アプローチを評価する。
さらに,文脈情報(データセット記述)が分類結果に与える影響についても検討する。
以上の結果から,ChatGPTとGoogleGeminiは内部整合性およびLLMアライメントでGoogleBardを上回ったことが示唆された。
興味深いことに、LLMのパフォーマンスに文脈が影響を与えないことがわかりました。
本研究では,制御された話題語彙を用いたテキスト分類に LLM を活用する手法を提案する。この手法は,自動メタデータの充実を促進する可能性を秘め,Web 上の研究データのデータセット検索とFinderability, Accessibility, Interoperability and Reusability (FAIR) を向上する。
関連論文リスト
- Schema Matching with Large Language Models: an Experimental Study [0.580553237364985]
本稿では,市販のLarge Language Models (LLM) を用いてスキーママッチングを行う。
本研究の目的は,2つの関係スキーマの要素間の意味的対応を名前と記述のみを用いて識別することである。
論文 参考訳(メタデータ) (2024-07-16T15:33:00Z) - When Search Engine Services meet Large Language Models: Visions and Challenges [53.32948540004658]
本稿では,大規模言語モデルと検索エンジンの統合が,両者の相互に利益をもたらすかどうかを詳細に検討する。
LLM(Search4LLM)の改良と,LLM(LLM4Search)を用いた検索エンジン機能の向上という,2つの主要な領域に注目した。
論文 参考訳(メタデータ) (2024-06-28T03:52:13Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Large Language Models for Data Annotation: A Survey [49.8318827245266]
LLM(Advanced Large Language Models)の出現は、データアノテーションの複雑なプロセスを自動化する前例のない機会を提供する。
この調査には、LLMが注釈付けできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションにLLMを使用する際の主な課題と制限に関する詳細な議論が含まれている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - Token Prediction as Implicit Classification to Identify LLM-Generated
Text [37.89852204279844]
本稿では,テキスト生成に関わる大きな言語モデル (LLM) を識別するための新しいアプローチを提案する。
ベースLMに新たな分類層を追加する代わりに、分類タスクを次の注意すべき予測タスクとして再設定する。
実験のバックボーンとしてText-to-Text Transfer Transformer (T5) モデルを用いる。
論文 参考訳(メタデータ) (2023-11-15T06:33:52Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。