論文の概要: RETSim: Resilient and Efficient Text Similarity
- arxiv url: http://arxiv.org/abs/2311.17264v1
- Date: Tue, 28 Nov 2023 22:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 23:02:18.635961
- Title: RETSim: Resilient and Efficient Text Similarity
- Title(参考訳): RETSim: レジリエントで効率的なテキスト類似性
- Authors: Marina Zhang, Owen Vallis, Aysegul Bumin, Tanay Vakharia, Elie
Bursztein
- Abstract要約: RETSimは、テキスト検索、クラスタリング、データセット重複タスクのための堅牢なメトリック埋め込みを生成するためにトレーニングされた、軽量で多言語的なディープラーニングモデルである。
我々は、RETSimがMinHashやニューラルテキストの埋め込みよりもはるかに堅牢で正確であることを実証した。
また,W4NT3Dベンチマークを用いて,多言語・ほぼ重複したテキスト検索機能の評価を行った。
- 参考スコア(独自算出の注目度): 1.6228944467258688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces RETSim (Resilient and Efficient Text Similarity), a
lightweight, multilingual deep learning model trained to produce robust metric
embeddings for near-duplicate text retrieval, clustering, and dataset
deduplication tasks. We demonstrate that RETSim is significantly more robust
and accurate than MinHash and neural text embeddings, achieving new
state-of-the-art performance on dataset deduplication, adversarial text
retrieval benchmarks, and spam clustering tasks. We also introduce the W4NT3D
benchmark (Wiki-40B 4dversarial Near-T3xt Dataset) for evaluating multilingual,
near-duplicate text retrieval capabilities under adversarial settings. RETSim
and the W4NT3D benchmark are open-sourced under the MIT License at
https://github.com/google/unisim.
- Abstract(参考訳): 本稿では,ほぼ重複したテキスト検索,クラスタリング,データセットの重複解消タスクのための堅牢なメトリック埋め込みを生成するように訓練された,軽量多言語ディープラーニングモデルであるretsim(resilient and efficient text similarity)を提案する。
我々は、retsimがminhashやneural textの埋め込みよりも大幅に堅牢で正確であることを示し、データセットの重複排除、逆テキスト検索ベンチマーク、スパムクラスタリングタスクにおける新しい最先端のパフォーマンスを達成する。
また,W4NT3D ベンチマーク (Wiki-40B 4dversarial Near-T3xt Dataset) を導入し,多言語・ほぼ重複したテキスト検索機能の評価を行った。
RETSimとW4NT3Dベンチマークは、MITライセンス下でhttps://github.com/google/unisimでオープンソース化されている。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval [31.79030663958162]
本稿では,テキスト埋め込みを柔軟で回復力のあるセマンティックレンジで強化するテキストモデリング手法T-MASSを提案する。
具体的には,テキスト・ビデオ・ペアにテキスト・マスのスケールを適応させるために,類似性を考慮した半径モジュールを導入する。
T-MASSは5つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - KETM:A Knowledge-Enhanced Text Matching method [0.0]
知識強化テキストマッチングモデル(KETM)と呼ばれるテキストマッチングの新しいモデルを提案する。
テキストワード定義を外部知識として検索するために、Wiktionaryを使用します。
我々は、ゲーティング機構を用いてテキストと知識を融合させ、テキストと知識融合の比率を学習する。
論文 参考訳(メタデータ) (2023-08-11T17:08:14Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Video-Text Retrieval by Supervised Sparse Multi-Grained Learning [22.17732989393653]
本稿では,ビデオとテキスト間で共有されるスパース空間を学習し,ビデオテキスト検索のための新しいスパース学習フレームワークであるS3MAを提案する。
テキストデータを手元に置き、提案した類似性とアライメント損失を用いて共有スパース空間を教師付きで学習し、更新する。
学習された共有空間と多粒度類似性から、ビデオテキスト検索ベンチマークによる実験により、既存の手法よりもS3MAの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-02-19T04:03:22Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。