論文の概要: Can LLM Substitute Human Labeling? A Case Study of Fine-grained Chinese Address Entity Recognition Dataset for UAV Delivery
- arxiv url: http://arxiv.org/abs/2403.06097v2
- Date: Tue, 19 Mar 2024 11:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 20:59:04.999522
- Title: Can LLM Substitute Human Labeling? A Case Study of Fine-grained Chinese Address Entity Recognition Dataset for UAV Delivery
- Title(参考訳): LLMは人間のラベルを置換できるか? : UAV配送のための微粒な中国語アドレスエンティティ認識データセットを事例として
- Authors: Yuxuan Yao, Sichun Luo, Haohan Zhao, Guanzhi Deng, Linqi Song,
- Abstract要約: CNER-UAVは、粒度の細かいtextbf Chinese textbfName textbfEntity textbfRecognitionデータセットである。
データセットには5つのカテゴリがあり、NERモデルの総合的なトレーニングと評価を可能にする。
- 参考スコア(独自算出の注目度): 10.92297839608322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CNER-UAV, a fine-grained \textbf{C}hinese \textbf{N}ame \textbf{E}ntity \textbf{R}ecognition dataset specifically designed for the task of address resolution in \textbf{U}nmanned \textbf{A}erial \textbf{V}ehicle delivery systems. The dataset encompasses a diverse range of five categories, enabling comprehensive training and evaluation of NER models. To construct this dataset, we sourced the data from a real-world UAV delivery system and conducted a rigorous data cleaning and desensitization process to ensure privacy and data integrity. The resulting dataset, consisting of around 12,000 annotated samples, underwent human experts and \textbf{L}arge \textbf{L}anguage \textbf{M}odel annotation. We evaluated classical NER models on our dataset and provided in-depth analysis. The dataset and models are publicly available at \url{https://github.com/zhhvvv/CNER-UAV}.
- Abstract(参考訳): CNER-UAV, a fine-fine \textbf{C}hinese \textbf{N}ame \textbf{E}ntity \textbf{R}ecognition dataset, specifically designed for the task of address resolution in \textbf{U}nmanned \textbf{A}erial \textbf{V}ehicle delivery system。
データセットには5つのカテゴリがあり、NERモデルの総合的なトレーニングと評価を可能にする。
このデータセットを構築するために、実際のUAV配信システムからデータをソースし、プライバシーとデータの整合性を確保するために厳密なデータクリーニングとデセンシタイズプロセスを実行した。
得られたデータセットは約12,000の注釈付きサンプルからなり、人間の専門家とtextbf{L}arge \textbf{L}anguage \textbf{M}odelアノテーションが与えられた。
従来のNERモデルをデータセット上で評価し,詳細な分析を行った。
データセットとモデルは、 \url{https://github.com/zhhvv/CNER-UAV}で公開されている。
関連論文リスト
- DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity [50.91030850662369]
既存のテキストベースの人物検索データセットは、しばしば比較的粗い粒度のテキストアノテーションを持つ。
これにより、実際のシナリオにおけるクエリテキストのきめ細かいセマンティクスを理解するモデルが妨げられます。
我々は,超微細な人物検索のためにtextbfUFineBench という新しいベンチマークを作成した。
論文 参考訳(メタデータ) (2023-12-06T11:50:14Z) - Self-Supervised Neural Architecture Search for Imbalanced Datasets [129.3987858787811]
ニューラルアーキテクチャサーチ(NAS)は、アノテートラベル付きよく計算されたデータセットでトレーニングされた場合、最先端の結果を提供する。
a) アーキテクチャを決定するためにラベルを必要とせず、(b) データセットが不均衡であると仮定する自己管理シナリオに焦点を当てたNASベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-17T14:56:36Z) - Neural Data-to-Text Generation with LM-based Text Augmentation [27.822282190362856]
弱教師付きトレーニングパラダイムは10%未満のアノテーションで完全に教師付きセq2seqモデルより優れていることを示す。
すべての注釈付きデータを利用することで、標準のSeq2seqモデルの性能を5 BLEUポイント以上向上させることができる。
論文 参考訳(メタデータ) (2021-02-06T10:21:48Z) - Data Segmentation via t-SNE, DBSCAN, and Random Forest [0.0]
本研究では、データを自然クラスタに分割し、最も重要な特徴に基づいて各クラスタの特徴プロファイルを生成するデータセグメンテーションアルゴリズムを提案する。
このアルゴリズムを解説し、Instagramの実際のソーシャルメディアサイトデータと同様に、IrisとMNISTデータセットを用いてケーススタディを提供する。
論文 参考訳(メタデータ) (2020-10-26T15:59:15Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z) - Deep generative models in DataSHIELD [0.0]
例えば、ドイツでは、患者の同意なしに研究目的で異なる病院からの定期的なデータをプールすることは不可能である。
DataSHIELDソフトウェアは、分散データの共同分析のためのインフラストラクチャと統計手法のセットを提供する。
我々は,分散患者データから複雑なパターンを保存する人工データを作成するために,DataSHIELD上に構築されたソフトウェア実装とともに方法論を提案する。
論文 参考訳(メタデータ) (2020-03-11T10:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。