論文の概要: Visual Lexicon: Rich Image Features in Language Space
- arxiv url: http://arxiv.org/abs/2412.06774v1
- Date: Mon, 09 Dec 2024 18:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 23:11:44.484253
- Title: Visual Lexicon: Rich Image Features in Language Space
- Title(参考訳): Visual Lexicon: 言語空間のリッチなイメージ機能
- Authors: XuDong Wang, Xingyi Zhou, Alireza Fathi, Trevor Darrell, Cordelia Schmid,
- Abstract要約: ViLexは、リッチなセマンティックコンテンツと詳細な視覚的詳細を同時にキャプチャする。
ViLexは、凍結されたテキスト・ツー・イメージ(T2I)拡散モデルを用いて入力画像の再構成に最適化されたトークンを生成する。
言語空間に埋め込まれた画像として、ViLexトークンは自然言語の合成性を利用する。
- 参考スコア(独自算出の注目度): 99.94214846451347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Visual Lexicon, a novel visual language that encodes rich image information into the text space of vocabulary tokens while retaining intricate visual details that are often challenging to convey in natural language. Unlike traditional methods that prioritize either high-level semantics (e.g., CLIP) or pixel-level reconstruction (e.g., VAE), ViLex simultaneously captures rich semantic content and fine visual details, enabling high-quality image generation and comprehensive visual scene understanding. Through a self-supervised learning pipeline, ViLex generates tokens optimized for reconstructing input images using a frozen text-to-image (T2I) diffusion model, preserving the detailed information necessary for high-fidelity semantic-level reconstruction. As an image embedding in the language space, ViLex tokens leverage the compositionality of natural languages, allowing them to be used independently as "text tokens" or combined with natural language tokens to prompt pretrained T2I models with both visual and textual inputs, mirroring how we interact with vision-language models (VLMs). Experiments demonstrate that ViLex achieves higher fidelity in image reconstruction compared to text embeddings--even with a single ViLex token. Moreover, ViLex successfully performs various DreamBooth tasks in a zero-shot, unsupervised manner without fine-tuning T2I models. Additionally, ViLex serves as a powerful vision encoder, consistently improving vision-language model performance across 15 benchmarks relative to a strong SigLIP baseline.
- Abstract(参考訳): 本稿では,語彙トークンのテキスト空間にリッチな画像情報をエンコードする新しいビジュアル言語であるVisual Lexiconを紹介する。
高度なセマンティックス(例えば、CLIP)やピクセルレベルの再構成(例えば、VAE)を優先する従来の方法とは異なり、ViLexはリッチなセマンティックコンテンツと詳細な視覚的詳細を同時にキャプチャし、高品質な画像生成と包括的な視覚的シーン理解を可能にする。
自己教師付き学習パイプラインを通じて、ViLexは、凍結されたテキスト・ツー・イメージ(T2I)拡散モデルを用いて入力画像の再構成に最適化されたトークンを生成し、高忠実なセマンティック・レベルの再構築に必要な詳細な情報を保存する。
言語空間に埋め込まれた画像として、ViLexトークンは、自然言語の合成性を活用し、"text tokens"として独立して使用したり、あるいは自然言語トークンと組み合わせて、事前訓練されたT2Iモデルを視覚的およびテキスト的入力で促し、視覚言語モデル(VLM)とどのように相互作用するかを反映させる。
実験により、ViLexは単一のViLexトークンであっても、テキスト埋め込みよりも画像再構成の忠実度が高いことが示された。
さらに、ViLexは微調整のT2Iモデルなしで、ゼロショットで教師なしの方法で様々なDreamBoothタスクを実行した。
さらに、ViLexは強力なビジョンエンコーダとして機能し、強力なSigLIPベースラインと比較して、15のベンチマークで視覚言語モデルのパフォーマンスを一貫して改善している。
関連論文リスト
- Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model [69.09404597939744]
Seedream 2.0は、中国語と英語のバイリンガル画像生成基盤モデルである。
中国語と英語の両方でテキストプロンプトを管理し、バイリンガル画像生成とテキストレンダリングをサポートする。
テキストエンコーダとして自己開発されたバイリンガルな大規模言語モデルと統合されており、大量のデータから直接ネイティブ知識を学習することができる。
論文 参考訳(メタデータ) (2025-03-10T17:58:33Z) - VL-Reader: Vision and Language Reconstructor is an Effective Scene Text Recognizer [22.06023928642522]
本稿では,VL-Readerという,革新的なシーンテキスト認識手法を提案する。
VL-Readerの新規性は、プロセス全体を通して視覚と言語の間の広範な相互作用にある。
トレーニング前の段階では、VL-Readerはマスクされたビジュアルトークンとテキストトークンの両方を再構築するが、微調整の段階では、ネットワークはマスクされた領域を使わずに画像からすべての文字を再構成する。
論文 参考訳(メタデータ) (2024-09-18T02:46:28Z) - VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded Text [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。
我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文 参考訳(メタデータ) (2024-03-12T17:59:51Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。