論文の概要: TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers
- arxiv url: http://arxiv.org/abs/2406.04438v1
- Date: Thu, 6 Jun 2024 18:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:17:07.911054
- Title: TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers
- Title(参考訳): TexIm FAST:変換器を用いた意味的類似性評価のためのテキストから画像への表現
- Authors: Wazib Ansar, Saptarsi Goswami, Amlan Chakrabarti,
- Abstract要約: TexIm FASTは、トランスフォーマー(TexIm FAST)を用いた意味評価のための自己教師付き変分自動エンコーダ(VAE)による固定長表現を生成する新しい手法である。
画像表現は、言語的な複雑さを維持しながら、暗黙の推論を可能にし、クロスモーダルな応用において強力である。
TexIm FASTの有効性は、MSRPC、CNN/Daily Mail、XSumデータセット上でのセマンティックテキスト類似性(STS)のタスクに対して広く分析されている。
- 参考スコア(独自算出の注目度): 2.7651063843287718
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the principal objectives of Natural Language Processing (NLP) is to generate meaningful representations from text. Improving the informativeness of the representations has led to a tremendous rise in the dimensionality and the memory footprint. It leads to a cascading effect amplifying the complexity of the downstream model by increasing its parameters. The available techniques cannot be applied to cross-modal applications such as text-to-image. To ameliorate these issues, a novel Text-to-Image methodology for generating fixed-length representations through a self-supervised Variational Auto-Encoder (VAE) for semantic evaluation applying transformers (TexIm FAST) has been proposed in this paper. The pictorial representations allow oblivious inference while retaining the linguistic intricacies, and are potent in cross-modal applications. TexIm FAST deals with variable-length sequences and generates fixed-length representations with over 75% reduced memory footprint. It enhances the efficiency of the models for downstream tasks by reducing its parameters. The efficacy of TexIm FAST has been extensively analyzed for the task of Semantic Textual Similarity (STS) upon the MSRPC, CNN/ Daily Mail, and XSum data-sets. The results demonstrate 6% improvement in accuracy compared to the baseline and showcase its exceptional ability to compare disparate length sequences such as a text with its summary.
- Abstract(参考訳): 自然言語処理(NLP)の主な目的の1つは、テキストから意味のある表現を生成することである。
表現の情報性を改善することで、次元性やメモリフットプリントが大幅に向上した。
これは、パラメータを増やして下流モデルの複雑さを増幅するカスケーディング効果をもたらす。
利用可能なテクニックは、text-to-imageのようなクロスモーダルなアプリケーションには適用できない。
これらの課題を改善するために,変圧器 (TexIm FAST) を用いた意味評価のための自己教師付き変分自動エンコーダ (VAE) による固定長表現を生成する新しいテキスト・ツー・イメージ手法を提案する。
画像表現は、言語的な複雑さを維持しながら、暗黙の推論を可能にし、クロスモーダルな応用において強力である。
TexIm FASTは可変長シーケンスを扱い、75%以上のメモリフットプリントを持つ固定長表現を生成する。
パラメータを小さくすることで、下流タスクのモデルの効率を向上する。
TexIm FASTの有効性は、MSRPC、CNN/Daily Mail、XSumデータセット上でのセマンティックテキスト類似性(STS)のタスクに対して広く分析されている。
その結果、ベースラインに比べて6%精度が向上し、テキストなどの異なる長さ列と要約を比較できる特有な能力を示した。
関連論文リスト
- Text4Seg: Reimagining Image Segmentation as Text Generation [32.230379277018194]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムであるText4Segを紹介する。
セマンティックディスクリプタは、各イメージパッチを対応するテキストラベルにマッピングするセグメンテーションマスクの新しいテキスト表現である。
MLLMのバックボーンを微調整することで,Text4Segが複数のデータセット上で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-10-13T14:28:16Z) - Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - Text-Conditioned Sampling Framework for Text-to-Image Generation with
Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。
TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。
我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-04T03:52:49Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Text Smoothing: Enhance Various Data Augmentation Methods on Text
Classification Tasks [47.5423959822716]
滑らかな表現は、事前訓練されたマスキング言語モデルから得られる候補トークンの確率である。
本研究では,テキストの平滑化という効率的なデータ拡張手法を提案し,文を1ホット表現から制御可能な平滑表現に変換する。
論文 参考訳(メタデータ) (2022-02-28T14:54:08Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。