論文の概要: A Neighbourhood Framework for Resource-Lean Content Flagging
- arxiv url: http://arxiv.org/abs/2103.17055v1
- Date: Wed, 31 Mar 2021 13:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 23:26:10.970672
- Title: A Neighbourhood Framework for Resource-Lean Content Flagging
- Title(参考訳): 資源レベルコンテンツフラグリングの周辺フレームワーク
- Authors: Sheikh Muhammad Sarwar, Dimitrina Zlatkova, Momchil Hardalov, Yoan
Dinkov, Isabelle Augenstein, Preslav Nakov
- Abstract要約: クロスリンガルコンテンツフラグングのための新しい解釈可能なフレームワークを提案する。
予測性能と平均推論時間の点で、以前の作業を大幅に上回ります。
このフレームワークは最寄りのアーキテクチャに基づいており、設計によって解釈可能である。
- 参考スコア(独自算出の注目度): 33.36135608625087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel interpretable framework for cross-lingual content
flagging, which significantly outperforms prior work both in terms of
predictive performance and average inference time. The framework is based on a
nearest-neighbour architecture and is interpretable by design. Moreover, it can
easily adapt to new instances without the need to retrain it from scratch.
Unlike prior work, (i) we encode not only the texts, but also the labels in the
neighbourhood space (which yields better accuracy), and (ii) we use a
bi-encoder instead of a cross-encoder (which saves computation time). Our
evaluation results on ten different datasets for abusive language detection in
eight languages shows sizable improvements over the state of the art, as well
as a speed-up at inference time.
- Abstract(参考訳): 本稿では,予測性能と平均推定時間の両方において,先行作業に優れる言語間コンテンツフラグングのための新しい解釈可能なフレームワークを提案する。
このフレームワークは最寄りのアーキテクチャに基づいており、設計によって解釈可能である。
さらに、スクラッチから再トレーニングする必要なしに、新しいインスタンスに簡単に適応できる。
以前の作業とは異なり、(i)テキストだけでなく、(i)近隣空間のラベルもエンコードし、(ii)クロスエンコーダの代わりにバイエンコーダを使用します(計算時間を節約します)。
8つの言語における乱用言語検出のための10の異なるデータセットに対する評価結果から,その技術に対する大幅な改善と,推論時の高速化が得られた。
関連論文リスト
- Sequence Shortening for Context-Aware Machine Translation [5.803309695504831]
マルチエンコーダアーキテクチャの特殊な場合において,コントラストデータセットの精度が向上することを示す。
遅延グループと遅延選択という2つの新しい手法を導入し、ネットワークはトークンをグループ化するか、コンテキストとしてキャッシュされるトークンを選択する。
論文 参考訳(メタデータ) (2024-02-02T13:55:37Z) - IPAD: Iterative, Parallel, and Diffusion-based Network for Scene Text Recognition [5.525052547053668]
多様な応用により、シーンテキスト認識がますます注目を集めている。
最先端のほとんどのメソッドは、アテンション機構を備えたエンコーダ・デコーダフレームワークを採用しており、左から右へ自動回帰的にテキストを生成する。
本稿では,並列かつ反復的なデコーダを用いて,簡単なデコード戦略を採用する方法を提案する。
論文 参考訳(メタデータ) (2023-12-19T08:03:19Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Using Language Models on Low-end Hardware [17.33390660481404]
本稿では,ローエンドハードウェア上でテキスト分類ネットワークをトレーニングするための固定言語モデルの有効性について検討する。
言語モデルとCNNアーキテクチャを組み合わせて、トピック、感情、ジャンルのシングルラベルとマルチラベルの分類をカバーする8つのデータセットで包括的なベンチマークを作成した。
論文 参考訳(メタデータ) (2023-05-03T18:00:03Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - CL-XABSA: Contrastive Learning for Cross-lingual Aspect-based Sentiment
Analysis [4.60495447017298]
本稿では,言語横断的アスペクトベース知覚分析のためのコントラスト学習フレームワークCL-XABSAを提案する。
具体的には、トークン埋め込み(TL-CTE)のトークンレベルのコントラスト学習とトークン埋め込み(SL-CTE)の感情レベルのコントラスト学習という2つのコントラスト戦略を設計する。
我々のフレームワークは訓練中に複数の言語でデータセットを受信できるので、XABSAタスクだけでなく、マルチリンガルなアスペクトベースの感情分析(MABSA)にも適用できます。
論文 参考訳(メタデータ) (2022-04-02T07:40:03Z) - Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic
Parsing [55.97957664897004]
seq2seq、非自動回帰的、タスク指向を構築するための効果的なレシピは、3つのステップで発話とセマンティックフレームをマッピングする。
これらのモデルは通常、長さ予測によってボトルネックとなる。
本研究では,デコードタスクをテキスト生成からスパン予測へシフトさせる非自己回帰手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T07:02:35Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。