論文の概要: Entity6K: A Large Open-Domain Evaluation Dataset for Real-World Entity Recognition
- arxiv url: http://arxiv.org/abs/2403.12339v1
- Date: Tue, 19 Mar 2024 01:07:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:51:27.216164
- Title: Entity6K: A Large Open-Domain Evaluation Dataset for Real-World Entity Recognition
- Title(参考訳): Entity6K: リアルタイムエンティティ認識のための大規模なオープンドメイン評価データセット
- Authors: Jielin Qiu, William Han, Winfred Wang, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Christos Faloutsos, Lei Li, Lijuan Wang,
- Abstract要約: 実世界のエンティティ認識のための包括的なデータセットであるEntity6Kを紹介する。
26のカテゴリに5700のエンティティがあり、それぞれがアノテーション付きの5つの人間認証イメージによってサポートされている。
- 参考スコア(独自算出の注目度): 100.39728263079736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-domain real-world entity recognition is essential yet challenging, involving identifying various entities in diverse environments. The lack of a suitable evaluation dataset has been a major obstacle in this field due to the vast number of entities and the extensive human effort required for data curation. We introduce Entity6K, a comprehensive dataset for real-world entity recognition, featuring 5,700 entities across 26 categories, each supported by 5 human-verified images with annotations. Entity6K offers a diverse range of entity names and categorizations, addressing a gap in existing datasets. We conducted benchmarks with existing models on tasks like image captioning, object detection, zero-shot classification, and dense captioning to demonstrate Entity6K's effectiveness in evaluating models' entity recognition capabilities. We believe Entity6K will be a valuable resource for advancing accurate entity recognition in open-domain settings.
- Abstract(参考訳): オープンドメインの実体認識は、多様な環境において様々な実体を識別することを含む、不可欠だが難しい。
適切な評価データセットの欠如は、膨大な数のエンティティと、データキュレーションに必要な膨大な人的労力のために、この分野において大きな障害となっている。
実世界のエンティティ認識のための包括的なデータセットであるEntity6Kを紹介します。
Entity6Kはさまざまなエンティティ名と分類を提供し、既存のデータセットのギャップに対処する。
画像キャプションやオブジェクト検出,ゼロショット分類,高密度キャプションといったタスクにおいて,既存のモデルを用いたベンチマークを行い,エンティティ認識能力の評価におけるEntity6Kの有効性を実証した。
Entity6Kは、オープンドメイン設定で正確なエンティティ認識を前進させるための貴重なリソースになるだろうと考えています。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - LLM-DER:A Named Entity Recognition Method Based on Large Language Models for Chinese Coal Chemical Domain [4.639851504108679]
中国語におけるドメイン固有エンティティ認識問題に対して,Large Language Models (LLMs) ベースのエンティティ認識フレームワーク LLM-DER を提案する。
LLMs-DERは、LCMを通してエンティティタイプを含む関係のリストを生成し、誤認識されたエンティティを削除するための妥当性と一貫性の評価方法を設計する。
本稿では,Resumeデータセットと自己構築石炭化学データセットCoalを用いた実験結果から,LLM-DERがドメイン固有エンティティ認識において優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-16T08:28:05Z) - An Attribute-Enriched Dataset and Auto-Annotated Pipeline for Open Detection [7.531866919805308]
我々は、既存のObjects365データセットの拡張であるObjects365-Attrデータセットを紹介し、属性アノテーションによって区別する。
このデータセットは、色、材料、状態、テクスチャ、トーンを含む幅広い属性のスペクトルを統合することで、オブジェクト検出の不整合を低減する。
5.6Mのオブジェクトレベルの属性記述の広範なコレクションが含まれており、1.4Mのバウンディングボックスに細心の注意を払って注釈付けされている。
論文 参考訳(メタデータ) (2024-09-10T07:53:32Z) - Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework [15.991114464911844]
過去5年間で、大規模なデータセットは公開されていない。
本稿では,大規模・クロスドメインな歩行者属性認識データセット MSP60K を提案する。
8つのシナリオにまたがる60,122のイメージと57の属性アノテーションで構成されている。
論文 参考訳(メタデータ) (2024-08-19T06:19:31Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Cross-Domain Neural Entity Linking [0.0]
クロスドメインニューラルエンティティリンクフレームワーク(CDNEL)を提案する。
我々の目標は、汎用ドメインKBとドメイン固有のKBの両方に同時リンクできる単一のシステムを作ることである。
提案フレームワークは、細調整に異なるタイプのデータセットを使用し、CDNELの異なるモデル変異をもたらす。
論文 参考訳(メタデータ) (2022-09-28T15:22:31Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Entity-Switched Datasets: An Approach to Auditing the In-Domain
Robustness of Named Entity Recognition Models [49.878051587667244]
そこで本稿では,エンティティの国家的起源によるパフォーマンスの違いに着目し,システムのドメイン内ロバスト性を評価する手法を提案する。
我々は、エンティティに切り替えたデータセットを作成し、元のテキストにある名前のエンティティを、同じタイプの、異なる国家起源の、もっともらしい名前のエンティティに置き換える。
同じ文脈では、ある起源のエンティティは、他の領域のエンティティよりも確実に認識される。
論文 参考訳(メタデータ) (2020-04-08T17:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。