Fugu-MT 論文翻訳(概要): TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers

論文の概要: TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers

arxiv url: http://arxiv.org/abs/2406.04438v1
Date: Thu, 6 Jun 2024 18:28:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 18:17:07.911054
Title: TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers
Title（参考訳）: TexIm FAST:変換器を用いた意味的類似性評価のためのテキストから画像への表現
Authors: Wazib Ansar, Saptarsi Goswami, Amlan Chakrabarti,
Abstract要約: TexIm FASTは、トランスフォーマー(TexIm FAST)を用いた意味評価のための自己教師付き変分自動エンコーダ(VAE)による固定長表現を生成する新しい手法である。画像表現は、言語的な複雑さを維持しながら、暗黙の推論を可能にし、クロスモーダルな応用において強力である。 TexIm FASTの有効性は、MSRPC、CNN/Daily Mail、XSumデータセット上でのセマンティックテキスト類似性(STS)のタスクに対して広く分析されている。
参考スコア（独自算出の注目度）: 2.7651063843287718
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: One of the principal objectives of Natural Language Processing (NLP) is to generate meaningful representations from text. Improving the informativeness of the representations has led to a tremendous rise in the dimensionality and the memory footprint. It leads to a cascading effect amplifying the complexity of the downstream model by increasing its parameters. The available techniques cannot be applied to cross-modal applications such as text-to-image. To ameliorate these issues, a novel Text-to-Image methodology for generating fixed-length representations through a self-supervised Variational Auto-Encoder (VAE) for semantic evaluation applying transformers (TexIm FAST) has been proposed in this paper. The pictorial representations allow oblivious inference while retaining the linguistic intricacies, and are potent in cross-modal applications. TexIm FAST deals with variable-length sequences and generates fixed-length representations with over 75% reduced memory footprint. It enhances the efficiency of the models for downstream tasks by reducing its parameters. The efficacy of TexIm FAST has been extensively analyzed for the task of Semantic Textual Similarity (STS) upon the MSRPC, CNN/ Daily Mail, and XSum data-sets. The results demonstrate 6% improvement in accuracy compared to the baseline and showcase its exceptional ability to compare disparate length sequences such as a text with its summary.
Abstract（参考訳）: 自然言語処理(NLP)の主な目的の1つは、テキストから意味のある表現を生成することである。表現の情報性を改善することで、次元性やメモリフットプリントが大幅に向上した。これは、パラメータを増やして下流モデルの複雑さを増幅するカスケーディング効果をもたらす。利用可能なテクニックは、text-to-imageのようなクロスモーダルなアプリケーションには適用できない。これらの課題を改善するために,変圧器 (TexIm FAST) を用いた意味評価のための自己教師付き変分自動エンコーダ (VAE) による固定長表現を生成する新しいテキスト・ツー・イメージ手法を提案する。画像表現は、言語的な複雑さを維持しながら、暗黙の推論を可能にし、クロスモーダルな応用において強力である。 TexIm FASTは可変長シーケンスを扱い、75%以上のメモリフットプリントを持つ固定長表現を生成する。パラメータを小さくすることで、下流タスクのモデルの効率を向上する。 TexIm FASTの有効性は、MSRPC、CNN/Daily Mail、XSumデータセット上でのセマンティックテキスト類似性(STS)のタスクに対して広く分析されている。その結果、ベースラインに比べて6%精度が向上し、テキストなどの異なる長さ列と要約を比較できる特有な能力を示した。

関連論文リスト

Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文参考訳（メタデータ） (2025-09-08T04:07:14Z)
Parameter-Efficient Transformer Embeddings [0.0]
本稿では,トークンの埋め込みベクトルをトークンIDから直接決定的に生成する手法を提案する。自然言語推論タスクで標準トランスフォーマーとアーキテクチャをトレーニングします。提案手法は, パラメータをはるかに少なくし, 高速かつ効果的に動作し, ドロップアウトを必要とせずに性能を向上することを示した。
論文参考訳（メタデータ） (2025-05-04T21:47:18Z)
Text4Seg: Reimagining Image Segmentation as Text Generation [32.230379277018194]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムであるText4Segを紹介する。セマンティックディスクリプタは、各イメージパッチを対応するテキストラベルにマッピングするセグメンテーションマスクの新しいテキスト表現である。 MLLMのバックボーンを微調整することで,Text4Segが複数のデータセット上で最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2024-10-13T14:28:16Z)
Towards Robust Real-Time Scene Text Detection: From Semantic to Instance Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文参考訳（メタデータ） (2023-08-14T15:14:37Z)
LRANet: Towards Accurate and Efficient Scene Text Detection with Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文参考訳（メタデータ） (2023-06-27T02:03:46Z)
Reducing Sequence Length by Predicting Edit Operations with Large Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文参考訳（メタデータ） (2023-05-19T17:51:05Z)
Text-Conditioned Sampling Framework for Text-to-Image Generation with Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。 TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2023-04-04T03:52:49Z)
Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文参考訳（メタデータ） (2022-04-15T07:38:08Z)
Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks [47.5423959822716]
滑らかな表現は、事前訓練されたマスキング言語モデルから得られる候補トークンの確率である。本研究では,テキストの平滑化という効率的なデータ拡張手法を提案し,文を1ホット表現から制御可能な平滑表現に変換する。
論文参考訳（メタデータ） (2022-02-28T14:54:08Z)
HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文参考訳（メタデータ） (2021-10-12T22:42:31Z)
XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文参考訳（メタデータ） (2021-06-17T17:33:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。