論文の概要: Shifting NER into High Gear: The Auto-AdvER Approach
- arxiv url: http://arxiv.org/abs/2412.05655v1
- Date: Sat, 07 Dec 2024 14:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:55.451049
- Title: Shifting NER into High Gear: The Auto-AdvER Approach
- Title(参考訳): NER を High Gear に移行する - Auto-AdvER アプローチ
- Authors: Filippos Ventirozos, Ioanna Nteka, Tania Nandy, Jozef Baca, Peter Appleby, Matthew Shardlow,
- Abstract要約: Auto-AdvERは、このドメインにおけるテキストマイニング分析を強化するように設計されている。
コンディション、ヒストリック、セールオプションの3つのラベルからなるスキーマを提案する。
我々は,エンコーダのみのモデルであるBERT,DeBERTaV3,デコーダのみのオープンかつクローズドソースのLarge Language Models (LLMs) を用いて,性能を比較した。
- 参考スコア(独自算出の注目度): 5.0571483350418
- License:
- Abstract: This paper presents a case study on the development of Auto-AdvER, a specialised named entity recognition schema and dataset for text in the car advertisement genre. Developed with industry needs in mind, Auto-AdvER is designed to enhance text mining analytics in this domain and contributes a linguistically unique NER dataset. We present a schema consisting of three labels: "Condition", "Historic" and "Sales Options". We outline the guiding principles for annotation, describe the methodology for schema development, and show the results of an annotation study demonstrating inter-annotator agreement of 92% F1-Score. Furthermore, we compare the performance by using encoder-only models: BERT, DeBERTaV3 and decoder-only open and closed source Large Language Models (LLMs): Llama, Qwen, GPT-4 and Gemini. Our results show that the class of LLMs outperforms the smaller encoder-only models. However, the LLMs are costly and far from perfect for this task. We present this work as a stepping stone toward more fine-grained analysis and discuss Auto-AdvER's potential impact on advertisement analytics and customer insights, including applications such as the analysis of market dynamics and data-driven predictive maintenance. Our schema, as well as our associated findings, are suitable for both private and public entities considering named entity recognition in the automotive domain, or other specialist domains.
- Abstract(参考訳): 本稿では,自動車広告ジャンルにおけるテキスト用エンティティ認識スキーマとデータセットであるAuto-AdvERの開発事例について述べる。
業界のニーズを念頭に置いて開発されたAuto-AdvERは、この分野におけるテキストマイニング分析を強化し、言語的にユニークなNERデータセットを提供するように設計されている。
本稿では,「コンディション」,「ヒストリック」,「セールオプション」の3つのラベルからなるスキーマを提案する。
本稿では、アノテーションの指針を概説し、スキーマ開発の方法論を説明し、F1スコア92%のアノテーション間合意を示すアノテーション研究の結果を示す。
さらに,エンコーダのみのモデルであるBERT,DeBERTaV3,およびデコーダのみのオープンソースかつクローズドなLarge Language Models (LLMs)を用いて,性能を比較する。
その結果,LLMのクラスはエンコーダのみのモデルよりも優れていた。
しかし、LCMはコストがかかり、このタスクにはほど遠い。
本研究は,よりきめ細かい分析に向けた一歩として,広告分析や顧客インサイトに対するAuto-AdvERの潜在的影響について論じる。
我々のスキーマは、我々の関連する知見と同様に、自動車ドメインまたは他の専門ドメインにおける名前付きエンティティ認識を検討するプライベートおよびパブリック両方のエンティティに適している。
関連論文リスト
- Combining Autoregressive and Autoencoder Language Models for Text Classification [1.0878040851638]
CAALM-TCは、自動回帰言語モデルと自動エンコーダ言語モデルを統合することで、テキスト分類を強化する新しい手法である。
4つのベンチマークデータセットの実験結果は、CAALMが既存の手法より一貫して優れていることを示している。
論文 参考訳(メタデータ) (2024-11-20T12:49:42Z) - Instruct-DeBERTa: A Hybrid Approach for Aspect-based Sentiment Analysis on Textual Reviews [2.0143010051030417]
Aspect-based Sentiment Analysis (ABSA)は自然言語処理(NLP)における重要な課題である
従来の感情分析手法は、全体的な感情を決定するのに有用だが、特定の製品やサービス機能に関する暗黙の意見を見逃すことが多い。
本稿では、レキシコンベースのアプローチから機械学習まで、ABSA方法論の進化を包括的に概観する。
論文 参考訳(メタデータ) (2024-08-23T16:31:07Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - ProgGen: Generating Named Entity Recognition Datasets Step-by-step with Self-Reflexive Large Language Models [25.68491572293656]
大規模言語モデルは、名前付きエンティティ認識のような構造化された知識抽出タスクにおいて不足する。
本稿では,より優れたNERデータセットを生成するため,LCMを質素なNER能力で活用するための革新的で費用効率のよい戦略について検討する。
論文 参考訳(メタデータ) (2024-03-17T06:12:43Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models [9.611864685207056]
本稿では,識別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへ,感情認識タスクを再構築するための新しいアプローチであるインストラクタCを提案する。
InstructERCは、3つの重要な貢献をしている:(1)モデルがマルチグラニュラリティ対話監視情報を明示的に統合するのに役立つ単純で効果的なテンプレートモジュール、(2)話者識別と感情予測タスクという2つの追加の感情アライメントタスクを導入し、会話における対話の役割の関係と将来の感情傾向を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2023-09-21T09:22:07Z) - UniversalNER: Targeted Distillation from Large Language Models for Open
Named Entity Recognition [48.977866466971655]
オープンNERのためにChatGPTをはるかに小さなUniversalNERモデルに蒸留する方法を示す。
9つの異なるドメインにわたる43のデータセットからなる、これまでで最大のNERベンチマークを組み立てました。
パラメータのごく一部で、UniversalNERは任意のエンティティタイプを認識するChatGPTの能力を取得するだけでなく、NERの精度を平均7-9絶対F1ポイントで上回る。
論文 参考訳(メタデータ) (2023-08-07T03:39:52Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - AutoTriggER: Label-Efficient and Robust Named Entity Recognition with
Auxiliary Trigger Extraction [54.20039200180071]
我々は,エンティティトリガの自動生成と活用によるNER性能向上のための新しいフレームワークを提案する。
筆者らのフレームワークは,ポストホックな説明を活用して合理的な知識を生成し,埋め込み手法を用いてモデルの事前知識を強化する。
AutoTriggERは強力なラベル効率を示し、目に見えないエンティティを一般化し、RoBERTa-CRFベースラインを平均0.5F1ポイント上回る性能を持つ。
論文 参考訳(メタデータ) (2021-09-10T08:11:56Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。