論文の概要: Temporal-aware Language Representation Learning From Crowdsourced Labels
- arxiv url: http://arxiv.org/abs/2107.07958v1
- Date: Thu, 15 Jul 2021 05:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 14:48:55.293642
- Title: Temporal-aware Language Representation Learning From Crowdsourced Labels
- Title(参考訳): クラウドソースラベルを用いた時間認識言語表現学習
- Authors: Yang Hao, Xiao Zhai, Wenbiao Ding, Zitao Liu
- Abstract要約: アンダーラインアンノテータを用いたアンダーラインソースラベルのための言語表現学習アルゴリズムであるemphTACMAを提案する。
この提案は、およそ5行のコードで実装するのが非常に簡単である。
その結果,本手法は予測精度とAUCにおいて,幅広い最先端のベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 12.40460861125743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning effective language representations from crowdsourced labels is
crucial for many real-world machine learning tasks. A challenging aspect of
this problem is that the quality of crowdsourced labels suffer high intra- and
inter-observer variability. Since the high-capacity deep neural networks can
easily memorize all disagreements among crowdsourced labels, directly applying
existing supervised language representation learning algorithms may yield
suboptimal solutions. In this paper, we propose \emph{TACMA}, a
\underline{t}emporal-\underline{a}ware language representation learning
heuristic for \underline{c}rowdsourced labels with \underline{m}ultiple
\underline{a}nnotators. The proposed approach (1) explicitly models the
intra-observer variability with attention mechanism; (2) computes and
aggregates per-sample confidence scores from multiple workers to address the
inter-observer disagreements. The proposed heuristic is extremely easy to
implement in around 5 lines of code. The proposed heuristic is evaluated on
four synthetic and four real-world data sets. The results show that our
approach outperforms a wide range of state-of-the-art baselines in terms of
prediction accuracy and AUC. To encourage the reproducible results, we make our
code publicly available at \url{https://github.com/CrowdsourcingMining/TACMA}.
- Abstract(参考訳): クラウドソースラベルから効果的な言語表現を学ぶことは、多くの現実世界の機械学習タスクにとって不可欠である。
この問題の難しい側面は、クラウドソースされたラベルの品質がサーバ内およびサーバ間の変動性が高いことである。
高容量のディープニューラルネットワークは、クラウドソースラベル間の不一致を簡単に記憶することができるため、既存の教師付き言語表現学習アルゴリズムを直接適用すれば、準最適解が得られる。
本稿では, 'emph{TACMA}, a \underline{t}emporal-\underline{a}ware language representation learning heuristic for \underline{c}rowdsourced labels with \underline{m}ultiple \underline{a}nnotatorsを提案する。
提案手法は,(1)アテンション機構によるサーバ内変動を明示的にモデル化し,(2)複数のワーカからのサンプルごとの信頼度スコアを計算・集計し,サーバ間不一致に対処する。
提案されたヒューリスティックは、およそ5行のコードで実装するのが非常に簡単である。
提案するヒューリスティックは4つの合成データと4つの実世界のデータセットで評価される。
その結果,本手法は予測精度とAUCにおいて,幅広い最先端のベースラインよりも優れていた。
再現可能な結果を促進するため、コード公開は \url{https://github.com/CrowdsourcingMining/TACMA} で行います。
関連論文リスト
- Text-Guided Mixup Towards Long-Tailed Image Categorization [7.207351201912651]
多くの実世界のアプリケーションにおいて、トレーニングデータのためのクラスラベルの周波数分布は、長い尾の分布を示すことができる。
本稿では,事前学習したテキストエンコーダによって認識されるクラス間の意味的関係を利用した,テキスト誘導型ミックスアップ手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T14:37:43Z) - UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding [31.272603877215733]
言語間の表現学習は、リソースに富んだデータからリソースに密着したデータへ知識を伝達し、異なる言語の意味理解能力を改善する。
言語間自然言語理解のためのunsupervised Pseudo Semantic Data Augmentation (UniPSDA) 機構を提案する。
論文 参考訳(メタデータ) (2024-06-24T07:27:01Z) - CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding [86.79903269137971]
擬似ラベルを用いて地域を特定するために、教師なしの視覚的接地法が開発された。
CLIP-VG は,CLIP を擬似言語ラベルに適応させる手法である。
提案手法は,RefCOCO/+/gデータセットにおいて,最先端の教師なし手法よりも有意差がある。
論文 参考訳(メタデータ) (2023-05-15T14:42:02Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Investigating Power laws in Deep Representation Learning [4.996066540156903]
本研究では,非ラベルデータセットにおける表現の質を評価するためのフレームワークを提案する。
表現学習に影響を与える3つの重要な属性に対して、電力法則の係数$alpha$を推定する。
特に$alpha$はラベルの知識のない表現から計算可能であり、非ラベル付きデータセットにおける表現の質を評価するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2022-02-11T18:11:32Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - NeuCrowd: Neural Sampling Network for Representation Learning with
Crowdsourced Labels [19.345894148534335]
本稿では,クラウドソースラベルから教師付き表現学習(SRL)を実現する統一フレームワークであるemphNeuCrowdを提案する。
提案手法は1つの実世界のデータセットと3つの実世界のデータセットで評価される。
論文 参考訳(メタデータ) (2020-03-21T13:38:18Z) - Distant Supervision and Noisy Label Learning for Low Resource Named
Entity Recognition: A Study on Hausa and Yor\`ub\'a [23.68953940000046]
遠隔監視や弱い監視といった技術は、ラベル付きデータを(セミ)自動で作成するために使用することができる。
我々は,異なる埋め込み手法を評価し,現実的な低リソースシナリオにおいて遠隔監視をうまく活用できることを示す。
論文 参考訳(メタデータ) (2020-03-18T17:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。