論文の概要: Harnessing label semantics to extract higher performance under noisy
label for Company to Industry matching
- arxiv url: http://arxiv.org/abs/2212.01685v1
- Date: Sat, 3 Dec 2022 20:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 18:18:25.873881
- Title: Harnessing label semantics to extract higher performance under noisy
label for Company to Industry matching
- Title(参考訳): 企業間マッチングのノイズラベルに基づくハイパフォーマンス抽出のためのラベルセマンティクスの調和
- Authors: Apoorva Jaiswal, Abhishek Mitra
- Abstract要約: ラベル付けは、中小企業や手作業に依存しているため、機械学習(ML)で最も高価なタスクとみなされることが多い。
マルチラベルテキスト分類の代替として意味的類似性マッチングを用いるMLパイプラインを提案する。
我々は、このパイプラインがノイズを大幅に改善し、堅牢な予測能力を示すことを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assigning appropriate industry tag(s) to a company is a critical task in a
financial institution as it impacts various financial machineries. Yet, it
remains a complex task. Typically, such industry tags are to be assigned by
Subject Matter Experts (SME) after evaluating company business lines against
the industry definitions. It becomes even more challenging as companies
continue to add new businesses and newer industry definitions are formed. Given
the periodicity of the task it is reasonable to assume that an Artificial
Intelligent (AI) agent could be developed to carry it out in an efficient
manner. While this is an exciting prospect, the challenges appear from the need
of historical patterns of such tag assignments (or Labeling). Labeling is often
considered the most expensive task in Machine Learning (ML) due its dependency
on SMEs and manual efforts. Therefore, often, in enterprise set up, an ML
project encounters noisy and dependent labels. Such labels create technical
hindrances for ML Models to produce robust tag assignments. We propose an ML
pipeline which uses semantic similarity matching as an alternative to multi
label text classification, while making use of a Label Similarity Matrix and a
minimum labeling strategy. We demonstrate this pipeline achieves significant
improvements over the noise and exhibit robust predictive capabilities.
- Abstract(参考訳): 企業に対して適切な業界タグを割り当てることは、様々な金融機関に影響を及ぼすため、金融機関にとって重要な課題である。
しかし、これはまだ複雑な作業である。
通常、そのような業界タグは、業界定義に反する企業のビジネスラインを評価した後、課題専門専門家(SME)によって割り当てられる。
企業が新たなビジネスを追加し続け、新たな業界定義が形成されるにつれ、さらに困難になる。
タスクの周期性を考えると、AI(Artificial Intelligent)エージェントが効率的に実行できるように開発できると仮定することは合理的である。
これはエキサイティングな見通しであるが、こうしたタグ割り当て(あるいはラベル付け)の歴史的パターンの必要性から課題が現れる。
ラベル付けは、中小企業や手作業に依存するため、機械学習(ML)で最も高価なタスクとみなされることが多い。
そのため、エンタープライズでは、しばしば、MLプロジェクトがノイズや依存するラベルに遭遇する。
このようなラベルは、堅牢なタグ割り当てを生成するために、ML Modelsの技術的障害を生成する。
本稿では,ラベル類似度行列と最小ラベル戦略を併用しながら,意味的類似度マッチングをマルチラベルテキスト分類の代替として利用するMLパイプラインを提案する。
このパイプラインがノイズを大幅に改善し、堅牢な予測能力を示すことを示す。
関連論文リスト
- Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation [2.024620791810963]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z) - Imprecise Label Learning: A Unified Framework for Learning with Various Imprecise Label Configurations [91.67511167969934]
imprecise label learning (ILL)は、様々な不正確なラベル構成で学習を統合するためのフレームワークである。
我々は、ILLが部分ラベル学習、半教師付き学習、雑音ラベル学習にシームレスに適応できることを実証した。
論文 参考訳(メタデータ) (2023-05-22T04:50:28Z) - AutoWS: Automated Weak Supervision Framework for Text Classification [1.748907524043535]
本稿では、ドメインエキスパートへの依存を減らしつつ、弱い監督プロセスの効率を高めるための新しい枠組みを提案する。
本手法では,ラベルクラス毎にラベル付きサンプルの小さなセットが必要であり,多数のラベル付きデータにノイズ付きラベルを割り当てるラベル付き関数のセットを自動生成する。
論文 参考訳(メタデータ) (2023-02-07T07:12:05Z) - Losses over Labels: Weakly Supervised Learning via Direct Loss
Construction [71.11337906077483]
プログラム可能な弱い監視は、機械学習のパラダイムとして成長している。
ラベルの中間ステップを経由することなく,直接損失を発生させるため,ラベルのロバスト・オーバー・ラベル(Losses over Labels, LoL)を提案する。
いくつかのベンチマークテキストおよび画像分類タスクにおいて、LoLは既存の弱い監督手法を改善していることを示す。
論文 参考訳(メタデータ) (2022-12-13T22:29:14Z) - Improved Adaptive Algorithm for Scalable Active Learning with Weak
Labeler [89.27610526884496]
Weak Labeler Active Cover (WL-AC)は、要求される精度を維持しながら、クエリの複雑さを低減するために、低品質の弱いラベルを堅牢に活用することができる。
受動学習と同一の精度を維持しつつラベル数を著しく削減し, 劣化したMNISTデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2022-11-04T02:52:54Z) - Eliciting and Learning with Soft Labels from Every Annotator [31.10635260890126]
個々のアノテータからソフトラベルを効率よく抽出することに注力する。
ラベルによる学習は,従来の手法と同等のモデル性能を達成できることを実証する。
論文 参考訳(メタデータ) (2022-07-02T12:03:00Z) - A Label Dependence-aware Sequence Generation Model for Multi-level
Implicit Discourse Relation Recognition [31.179555215952306]
暗黙の談話関係認識は、談話分析において難しいが重要な課題である。
ラベル依存型シーケンス生成モデル(LDSGM)を提案する。
ボトムアップ方向のラベル依存を利用した相互学習強化訓練法を開発した。
論文 参考訳(メタデータ) (2021-12-22T09:14:03Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - Few-shot Slot Tagging with Collapsed Dependency Transfer and
Label-enhanced Task-adaptive Projection Network [61.94394163309688]
本稿では,現在最先端の少数ショット分類モデルであるTapNetに基づくラベル強化タスク適応プロジェクションネットワーク(L-TapNet)を提案する。
実験結果から,本モデルは1ショット設定で14.64点のF1スコアで最強の少ショット学習ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-10T07:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。