Fugu-MT 論文翻訳(概要): Evaluating LLMs on Entity Disambiguation in Tables

論文の概要: Evaluating LLMs on Entity Disambiguation in Tables

arxiv url: http://arxiv.org/abs/2408.06423v2
Date: Thu, 31 Oct 2024 18:43:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 11:26:46.666005
Title: Evaluating LLMs on Entity Disambiguation in Tables
Title（参考訳）: テーブルにおけるエンティティの曖昧さに関するLCMの評価
Authors: Federico Belotti, Fabio Dadda, Marco Cremaschi, Roberto Avogadro, Matteo Palmonari,
Abstract要約: 本研究は,Alligator(旧s-elbat),Dagobah,TURL,TableLlamaの4つのSTI SOTAアプローチを広範囲に評価することを提案する。また, GPT-4o と GPT-4o-mini は, 様々な公開ベンチマークにおいて優れており, 評価に含めている。
参考スコア（独自算出の注目度）: 0.9786690381850356
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tables are crucial containers of information, but understanding their meaning may be challenging. Over the years, there has been a surge in interest in data-driven approaches based on deep learning that have increasingly been combined with heuristic-based ones. In the last period, the advent of \acf{llms} has led to a new category of approaches for table annotation. However, these approaches have not been consistently evaluated on a common ground, making evaluation and comparison difficult. This work proposes an extensive evaluation of four STI SOTA approaches: Alligator (formerly s-elbat), Dagobah, TURL, and TableLlama; the first two belong to the family of heuristic-based algorithms, while the others are respectively encoder-only and decoder-only Large Language Models (LLMs). We also include in the evaluation both GPT-4o and GPT-4o-mini, since they excel in various public benchmarks. The primary objective is to measure the ability of these approaches to solve the entity disambiguation task with respect to both the performance achieved on a common-ground evaluation setting and the computational and cost requirements involved, with the ultimate aim of charting new research paths in the field.
Abstract（参考訳）: テーブルは情報の重要なコンテナだが、その意味を理解することは難しいかもしれない。長年にわたって、ディープラーニングに基づくデータ駆動アプローチへの関心が高まってきた。最終時代において、 \acf{llms} の出現は、テーブルアノテーションに対するアプローチの新しいカテゴリへと繋がった。しかし、これらのアプローチは共通の根拠で一貫して評価されておらず、評価と比較が困難である。本研究は、アリゲータ(元s-elbat)、ダゴバ、TURL、TableLlamaの4つのSTI SOTAアプローチを広範囲に評価することを提案する。また, GPT-4o と GPT-4o-mini は, 様々な公開ベンチマークにおいて優れており, 評価に含めている。主な目的は, 共通グラウンド評価設定において達成された性能と, 計算・コスト要件の両方に関して, 分野における新たな研究パスをチャート化することを目的とした, エンティティの曖昧化課題を解決するためのこれらの手法の能力を測定することである。

関連論文リスト

Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。 i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文参考訳（メタデータ） (2025-04-26T07:48:52Z)
Benchmarking LLM-based Relevance Judgment Methods [15.255877686845773]
大規模言語モデル(LLM)は、学術的、産業的にもますます多くデプロイされている。我々は,2値関係判定,次級関係評価,相互選好に基づく手法,および2つのナゲットに基づく評価方法など,複数のLCMに基づく関連性評価手法を体系的に比較した。データリリースには、オープンソース(Llama3.2b)と商用(gpt-4o)モデルの両方で生成された関連判断が含まれています。
論文参考訳（メタデータ） (2025-04-17T01:13:21Z)
Enhancing Classifier Evaluation: A Fairer Benchmarking Strategy Based on Ability and Robustness [0.4749981032986242]
本研究では,項目応答理論(IRT)とGlicko-2レーティングシステムを組み合わせた新しい評価手法を提案する。 IRTは難しいインスタンスよりもパフォーマンスに基づいて分類器の能力を評価し、Glicko-2はパフォーマンスメトリクスを更新します。 OpenML-CC18ベンチマークを使用したケーススタディでは、データセットの15%だけが本当に難しいことが判明した。
論文参考訳（メタデータ） (2025-04-13T23:54:08Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Low-shot Object Learning with Mutual Exclusivity Bias [27.67152913041082]
本稿では,相互排他バイアスの計算フレーミングであるLSME(Low-shot Object Learning with Mutual Exclusivity Bias)を紹介する。我々は、MLコミュニティがこの挑戦的な学習課題に対処できるように、新しいデータセット、包括的なベースライン、最先端の手法を提供する。
論文参考訳（メタデータ） (2023-12-06T14:54:10Z)
A Critical Re-evaluation of Benchmark Datasets for (Deep) Learning-Based Matching Algorithms [11.264467955516706]
確立された13のデータセットの難易度と適切性を評価するための4つの手法を提案する。一般的なデータセットの多くは、かなり簡単な分類タスクを処理している。ベンチマークデータセットを得るための新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-03T07:54:54Z)
A RelEntLess Benchmark for Modelling Graded Relations between Named Entities [29.528217625083546]
我々は,与えられた次数関係をどの程度満たすかに応じて,エンティティペアをランク付けしなければならない新しいベンチマークを導入する。モデルのサイズと性能の間には強い相関関係があり、より小さな言語モデルでは単純なベースラインを上回りません。最大のFlan-T5およびOPTモデルの結果は極めて強いが、人間のパフォーマンスとの明確なギャップは残る。
論文参考訳（メタデータ） (2023-05-24T10:41:24Z)
Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文参考訳（メタデータ） (2022-10-11T20:20:20Z)
Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-05-12T02:23:25Z)
TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文参考訳（メタデータ） (2021-04-14T17:02:18Z)
Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文参考訳（メタデータ） (2021-01-02T07:13:41Z)
ALdataset: a benchmark for pool-based active learning [1.9308522511657449]
アクティブ・ラーニング(AL)は機械学習(ML)のサブフィールドであり、学習アルゴリズムは新しいデータポイントをラベル付けするためにユーザ/オーラルを対話的にクエリすることで、トレーニングサンプルの少ない精度で学習できる。プールベースのALは多くのMLタスクにおいて、ラベルのないデータが豊富にあるが、ラベルを得るのは難しい。提案手法は,最近提案された手法と古典的手法の両方で,様々なアクティブな学習戦略の実験結果を示し,その結果から洞察を得た。
論文参考訳（メタデータ） (2020-10-16T04:37:29Z)
Revisiting LSTM Networks for Semi-Supervised Text Classification via Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文参考訳（メタデータ） (2020-09-08T21:55:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。