Fugu-MT 論文翻訳(概要): TULIP: Token-length Upgraded CLIP

論文の概要: TULIP: Token-length Upgraded CLIP

arxiv url: http://arxiv.org/abs/2410.10034v1
Date: Sun, 13 Oct 2024 22:34:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 03:33:49.627249
Title: TULIP: Token-length Upgraded CLIP
Title（参考訳）: TULIP: トークン長のアップグレードCLIP
Authors: Ivona Najdenkoska, Mohammad Mahdi Derakhshani, Yuki M. Asano, Nanne van Noord, Marcel Worring, Cees G. M. Snoek,
Abstract要約: 私たちは、CLIPのような視覚言語モデルで長いキャプションを表現するという課題に対処する。これらのモデルは、固定された絶対的な位置符号化によって制限され、入力を最大77個のトークンに制限する。トークン長を任意の長さにアップグレードできる一般化可能なT法を提案する。
参考スコア（独自算出の注目度）: 57.818513403100326
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We address the challenge of representing long captions in vision-language models, such as CLIP. By design these models are limited by fixed, absolute positional encodings, restricting inputs to a maximum of 77 tokens and hindering performance on tasks requiring longer descriptions. Although recent work has attempted to overcome this limit, their proposed approaches struggle to model token relationships over longer distances and simply extend to a fixed new token length. Instead, we propose a generalizable method, named TULIP, able to upgrade the token length to any length for CLIP-like models. We do so by improving the architecture with relative position encodings, followed by a training procedure that (i) distills the original CLIP text encoder into an encoder with relative position encodings and (ii) enhances the model for aligning longer captions with images. By effectively encoding captions longer than the default 77 tokens, our model outperforms baselines on cross-modal tasks such as retrieval and text-to-image generation.
Abstract（参考訳）: 私たちは、CLIPのような視覚言語モデルで長いキャプションを表現するという課題に対処する。これらのモデルは固定された絶対的な位置符号化によって制限され、入力を最大77個のトークンに制限し、長い記述を必要とするタスクのパフォーマンスを妨げている。最近の研究は、この制限を克服しようと試みているが、彼らの提案したアプローチは、より長い距離でトークンの関係をモデル化し、単純に固定された新しいトークン長まで拡張するのに苦労している。代わりに、CLIPのようなモデルに対してトークン長を任意の長さにアップグレードできるTULIPという一般化可能な手法を提案する。相対的な位置エンコーディングによるアーキテクチャの改善と,それに続くトレーニング手順によって実現しています。 i) 元のCLIPテキストエンコーダを相対位置エンコーダ付きエンコーダに蒸留し、 (ii)長文キャプションと画像との整合モデルを強化する。デフォルトの77トークンよりも長い字幕を効果的に符号化することにより、検索やテキスト・ツー・イメージ生成といったクロスモーダルなタスクのベースラインよりも優れています。

関連論文リスト

FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs [0.351124620232225]
FineLIPは textbfFine の粒度のアライメントと textbfLonger のテキスト入力を組み込むことで、クロスモーダルなテキストイメージマッピングを強化する。 FineLIPはまず、より長いテキストを扱うために位置埋め込みを拡張し、続いてローカル画像とテキストトークンの動的集約を行う。我々は、ゼロショット・クロスモーダル検索とテキスト・ツー・イメージ生成という2つのタスクにまたがって、長い詳細なキャプションを持つデータセット上でモデルを検証した。
論文参考訳（メタデータ） (2025-04-02T17:19:59Z)
Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。 Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文参考訳（メタデータ） (2025-03-21T09:46:31Z)
ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文参考訳（メタデータ） (2024-10-10T20:54:15Z)
LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-07T17:52:56Z)
ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。トークン長に関する復元と生成品質の間にはトレードオフがある。本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文参考訳（メタデータ） (2024-10-02T17:06:39Z)
Long-CLIP: Unlocking the Long-Text Capability of CLIP [47.13547303843929]
Long-CLIPはContrastive Language-Image Pre-trainingに代わるプラグインとプレイである。 Long-CLIPは、長文入力をサポートし、ゼロショットの一般化性を維持または超える。 CLIPをプラグイン・アンド・プレイで置き換えることで、詳細なテキスト記述から画像を生成する機能が強化されている。
論文参考訳（メタデータ） (2024-03-22T17:58:16Z)
A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions [9.87625120950535]
我々はDensely Captioned Imagesデータセットを収集し、7805個の天然画像にマスクによる記述を付加した。画像の特定の部分に関連する正確で信頼性の高いキャプションを用いて、視覚モデルによる画像内容の理解を評価することができる。標準ベンチマークを進歩させる最新の技術は、我々のsDCIベースのベンチマークの大幅な改善と一致しないことを示す。
論文参考訳（メタデータ） (2023-12-14T00:42:23Z)
Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文参考訳（メタデータ） (2023-07-13T17:46:42Z)
Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文参考訳（メタデータ） (2022-05-26T02:46:09Z)
Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文参考訳（メタデータ） (2020-07-19T03:40:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。