論文の概要: Column Vocabulary Association (CVA): semantic interpretation of dataless tables
- arxiv url: http://arxiv.org/abs/2409.13709v1
- Date: Fri, 6 Sep 2024 14:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:46:28.436758
- Title: Column Vocabulary Association (CVA): semantic interpretation of dataless tables
- Title(参考訳): Column Vocabulary Association (CVA) : データレステーブルの意味論的解釈
- Authors: Margherita Martorana, Xueli Pan, Benno Kruit, Tobias Kuhn, Jacco van Ossenbruggen,
- Abstract要約: カラム語彙協会(英語: Column Vocabulary Association, CVA)は、メタデータ情報のみに基づく列ヘッダのセマンティックアノテーションのタスクを指す。
我々は,大規模言語モデル (LLM) や検索拡張生成 (RAG) など,CVAタスクの実行における各種手法の性能を評価する。
- 参考スコア(独自算出の注目度): 0.6466206145151129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional Semantic Table Interpretation (STI) methods rely primarily on the underlying table data to create semantic annotations. This year's SemTab challenge introduced the ``Metadata to KG'' track, which focuses on performing STI by using only metadata information, without access to the underlying data. In response to this new challenge, we introduce a new term: Column Vocabulary Association (CVA). This term refers to the task of semantic annotation of column headers solely based on metadata information. In this study, we evaluate the performance of various methods in executing the CVA task, including a Large Language Models (LLMs) and Retrieval Augmented Generation (RAG) approach, as well as a more traditional similarity approach with SemanticBERT. Our methodology uses a zero-shot setting, with no pretraining or examples passed to the Large Language Models (LLMs), as we aim to avoid a domain-specific setting. We investigate a total of 7 different LLMs, of which three commercial GPT models (i.e. gpt-3.5-turbo-0.125, gpt-4o and gpt-4-turbo) and four open source models (i.e. llama3-80b, llama3-7b, gemma-7b and mixtral-8x7b). We integrate this models with RAG systems, and we explore how variations in temperature settings affect performances. Moreover, we continue our investigation by performing the CVA task utilizing SemanticBERT, analyzing how various metadata information influence its performance. Initial findings indicate that LLMs generally perform well at temperatures below 1.0, achieving an accuracy of 100\% in certain cases. Nevertheless, our investigation also reveal that the nature of the data significantly influences CVA task outcomes. In fact, in cases where the input data and glossary are related (for example by being created by the same organizations) traditional methods appear to surpass the performance of LLMs.
- Abstract(参考訳): 従来のセマンティックテーブル解釈(STI)メソッドは主にセマンティックアノテーションを作成するために基礎となるテーブルデータに依存している。
今年のSemTabチャレンジでは、‘Metadata to KG’トラックが導入された。これは、メタデータ情報のみを使用して、基盤となるデータにアクセスせずに、STIを実行することに焦点を当てている。
この新たな課題に対応するために、カラム語彙協会(CVA)という新しい用語を導入する。
この用語はメタデータ情報のみに基づく列ヘッダのセマンティックアノテーションのタスクを指す。
本研究では,Large Language Models (LLMs) やRetrieval Augmented Generation (RAG) など,CVAタスクの実行における様々な手法の性能評価を行った。
我々の手法はゼロショット設定を使用し、ドメイン固有の設定を避けることを目的としており、Large Language Models (LLM) に事前訓練や例を渡さない。
3種類の商用GPTモデル (gpt-3.5-turbo-0.125, gpt-4o, gpt-4-turbo) と4つのオープンソースモデル (llama3-80b, llama3-7b, gemma-7b, mixtral-8x7b) について検討した。
我々は、このモデルをRAGシステムと統合し、温度設定の変化がパフォーマンスに与える影響について検討する。
さらに,SemanticBERTを用いてCVAタスクを実行し,メタデータ情報がパフォーマンスに与える影響を分析する。
最初の発見は、LLMは一般的に1.0以下の温度で良好に動作し、特定のケースでは100\%の精度を達成していることを示している。
調査の結果,データの性質がCVAタスクの結果に大きく影響していることが判明した。
実際、入力データと用語集が関連している場合(例えば、同じ組織によって作成されている場合)、従来の手法はLLMのパフォーマンスを上回っているように見える。
関連論文リスト
- Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models [73.94175015918059]
本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。
本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
論文 参考訳(メタデータ) (2024-10-16T23:05:59Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Zero-Shot Stance Detection using Contextual Data Generation with LLMs [0.04096453902709291]
文脈データ生成(DyMoAdapt)を用いた動的モデル適応法を提案する。
このアプローチでは、テスト時に既存のモデルを微調整することを目的としています。
GPT-3を用いてトピック固有の新しいデータを生成する。
この方法は、新しいトピックへのモデルの適応を可能にすることで、性能を向上させることができる。
論文 参考訳(メタデータ) (2024-05-19T17:58:26Z) - Zero-Shot Topic Classification of Column Headers: Leveraging LLMs for Metadata Enrichment [0.0]
本稿では,3つの大規模言語モデル(LLM)によって生成されたトピックアノテーション(ChatGPT-3.5, GoogleBard, GoogleGemini)を用いてメタデータの充実を支援する手法を提案する。
文脈情報(データセット記述)が分類結果に与える影響を評価する。
論文 参考訳(メタデータ) (2024-03-01T10:01:36Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - GIELLM: Japanese General Information Extraction Large Language Model
Utilizing Mutual Reinforcement Effect [0.0]
汎用情報抽出大言語モデル(GIELLM)について紹介する。
テキスト分類、感性分析、名前付きエンティティ認識、関係抽出、および一様入力出力スキーマを使用したイベント抽出を統合している。
このイノベーションは、このような多様なIEサブタスクを同時に扱うモデルの最初の例である。
論文 参考訳(メタデータ) (2023-11-12T13:30:38Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。