Fugu-MT 論文翻訳(概要): RetVec: Resilient and Efficient Text Vectorizer

論文の概要: RetVec: Resilient and Efficient Text Vectorizer

arxiv url: http://arxiv.org/abs/2302.09207v1
Date: Sat, 18 Feb 2023 02:06:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-21 19:48:51.912053
Title: RetVec: Resilient and Efficient Text Vectorizer
Title（参考訳）: RetVec: レジリエントで効率的なテキストベクタライザ
Authors: Elie Bursztein, Marina Zhang, Owen Vallis, Xinyu Jia, Alexey Kurakin,
Abstract要約: RetVecは、ニューラルネットワークベースのテキスト処理用に設計されたレジリエントな多言語埋め込みスキームである。我々はRetVecを、一般的なモデルアーキテクチャ上での最先端のトークン化器や単語埋め込みと比較した。
参考スコア（独自算出の注目度）: 3.9899003253026653
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper describes RetVec, a resilient multilingual embedding scheme designed for neural-based text processing, including small-text classification and large-language models. RetVec combines a novel character encoding with an optional small model to embed words into a 256-dimensional vector space. These embeddings enable training competitive multilingual text models resilient to typos and adversarial attacks. In this paper, we evaluate and compare RetVec to state-of-the-art tokenizers and word embeddings on common model architectures. These comparisons demonstrate that RetVec leads to competitive models that are significantly more resilient to text perturbations across a variety of common tasks. RetVec is available under Apache 2 license at \url{https://github.com/[anonymized]}.
Abstract（参考訳）: 本稿では,ニューラルベーステキスト処理のためのレジリエントな多言語埋め込み方式であるRetVecについて述べる。 RetVecは、256次元ベクトル空間に単語を埋め込むために、新しい文字エンコーディングとオプションの小さなモデルを組み合わせる。これらの埋め込みにより、タイポスや敵攻撃に耐性のある競合する多言語テキストモデルのトレーニングが可能になる。本稿では,RetVecと最先端のトークン化器および共通モデルアーキテクチャにおける単語埋め込みの評価と比較を行う。これらの比較は、RetVecが、さまざまな共通タスクにわたるテキスト摂動に対して、はるかに回復力のある競合モデルをもたらすことを示している。 RetVecはApache 2ライセンスのもと、 \url{https://github.com/[anonymized]}で利用できる。

関連論文リスト

SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
テキストの不規則性や言語コンテキストのモデル化が可能なCTCモデルであるSVTRv2を提案する。我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で広範囲に評価した。 SVTRv2は精度と推論速度の点でほとんどのEDTRを超越している。
論文参考訳（メタデータ） (2024-11-24T14:21:35Z)
RWKV-CLIP: A Robust Vision-Language Representation Learner [31.501759213619646]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に改善した。本稿では,Large Language Models(LLM)を利用して,Webベースのテキスト,合成キャプション,検出タグからコンテンツを合成・洗練する多種多様な記述生成フレームワークを提案する。 RWKV-CLIPは,変換器の効果的な並列学習とRNNの効率的な推論を組み合わせた,最初のRWKV駆動型視覚言語表現学習モデルである。
論文参考訳（メタデータ） (2024-06-11T06:10:46Z)
RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文参考訳（メタデータ） (2024-05-11T16:22:00Z)
Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。 LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文参考訳（メタデータ） (2024-02-27T14:21:56Z)
Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文参考訳（メタデータ） (2023-12-23T11:10:43Z)
REST: Retrieval-Based Speculative Decoding [69.06115086237207]
本稿では,言語モデル生成の高速化を目的とした新しいアルゴリズムであるRetrieval-Based Speculative Decoding(REST)を紹介する。投機的復号化のためのドラフト言語モデルに依存する従来の方法とは異なり、RESTは検索の力を利用してドラフトトークンを生成する。単一バッチ環境で7Bと13Bの言語モデルでベンチマークすると、RESTはコードやテキスト生成において1.62Xから2.36Xの大幅なスピードアップを達成する。
論文参考訳（メタデータ） (2023-11-14T15:43:47Z)
Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-05-26T09:26:23Z)
Adapting Language Models to Compress Contexts [71.98287002918941]
トランスフォーマーベースの言語モデル(LM)は強力で広く適用可能なツールであるが、その有用性は有限コンテキストウィンドウによって制限される。本稿では,事前学習したLMを,長いコンテキストをコンパクトな要約ベクトルに圧縮可能なAutoCompressorに適応させることを提案する。最大30,720個のトークンのシーケンスでOPTとLlama-2モデルを微調整し、AutoCompressorが長いコンテキストを使ってパープレキシティを向上できることを示す。
論文参考訳（メタデータ） (2023-05-24T06:42:44Z)
STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。 CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。 CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文参考訳（メタデータ） (2023-01-30T17:21:30Z)
Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文参考訳（メタデータ） (2022-06-17T04:07:45Z)
SVTR: Scene Text Recognition with a Single Visual Model [44.26135584093631]
パッチワイド画像トークン化フレームワークにおいて,シーンテキスト認識のための単一ビジュアルモデルを提案する。 SVTRと呼ばれるこの方法は、まずイメージテキストを小さなパッチに分解する。英語と中国語の両方のシーンテキスト認識タスクの実験結果から,SVTRの有効性が示された。
論文参考訳（メタデータ） (2022-04-30T04:37:01Z)
Hamming OCR: A Locality Sensitive Hashing Neural Network for Scene Text Recognition [14.250874536962366]
自己注意に基づくシーンテキスト認識アプローチは、優れたパフォーマンスを実現している。分類層と埋め込み層の両方におけるパラメータの数は、語彙のサイズに依存しない。ハンミングOCRは競争結果を達成する。
論文参考訳（メタデータ） (2020-09-23T01:20:19Z)
An Intelligent CNN-VAE Text Representation Technology Based on Text Semantics for Comprehensive Big Data [15.680918844684454]
畳み込みニューラルネットワーク(CNN)と可変オートエンコーダ(VAE)に基づくテキスト特徴表現モデルを提案する。提案手法は,k-nearest neighbor (KNN), random forest (RF) および Support vector machine (SVM) 分類アルゴリズムにおいて優れる。
論文参考訳（メタデータ） (2020-08-28T07:39:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。