論文の概要: Generalized Decoding for Pixel, Image, and Language
- arxiv url: http://arxiv.org/abs/2212.11270v1
- Date: Wed, 21 Dec 2022 18:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 13:42:45.333628
- Title: Generalized Decoding for Pixel, Image, and Language
- Title(参考訳): Pixel, Image, 言語のための一般化デコーディング
- Authors: Xueyan Zou, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li,
Xiyang Dai, Harkirat Behl, Jianfeng Wang, Lu Yuan, Nanyun Peng, Lijuan Wang,
Yong Jae Lee, Jianfeng Gao
- Abstract要約: 画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
- 参考スコア(独自算出の注目度): 197.85760901840177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present X-Decoder, a generalized decoding model that can predict
pixel-level segmentation and language tokens seamlessly. X-Decodert takes as
input two types of queries: (i) generic non-semantic queries and (ii) semantic
queries induced from text inputs, to decode different pixel-level and
token-level outputs in the same semantic space. With such a novel design,
X-Decoder is the first work that provides a unified way to support all types of
image segmentation and a variety of vision-language (VL) tasks. Further, our
design enables seamless interactions across tasks at different granularities
and brings mutual benefits by learning a common and rich pixel-level
visual-semantic understanding space, without any pseudo-labeling. After
pretraining on a mixed set of a limited amount of segmentation data and
millions of image-text pairs, X-Decoder exhibits strong transferability to a
wide range of downstream tasks in both zero-shot and finetuning settings.
Notably, it achieves (1) state-of-the-art results on open-vocabulary
segmentation and referring segmentation on eight datasets; (2) better or
competitive finetuned performance to other generalist and specialist models on
segmentation and VL tasks; and (3) flexibility for efficient finetuning and
novel task composition (e.g., referring captioning and image editing). Code,
demo, video, and visualization are available at https://x-decoder-vl.github.io.
- Abstract(参考訳): 画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decodertは入力として2種類のクエリを取ります。
(i)ジェネリックな非セマンティッククエリ
(ii)テキスト入力から誘導される意味的クエリは、異なるピクセルレベルとトークンレベルの出力を同じ意味空間でデコードする。
このような斬新な設計により、X-Decoderは、あらゆる種類のイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
さらに,異なる粒度でのタスク間のシームレスなインタラクションを可能にし,擬似ラベルを使わずに,共通かつリッチなピクセルレベルの視覚理解空間を学習することで相互にメリットをもたらす。
少数のセグメンテーションデータと数百万のイメージテキストペアの混合セットを事前トレーニングした後、X-Decoderはゼロショットと微調整の両方の設定で、幅広い下流タスクに強い転送性を示す。
特に、(1)オープン語彙のセグメンテーションと8つのデータセットに対する参照セグメンテーションの最先端結果、(2)セグメンテーションとVLタスクに関する他のジェネラリストやスペシャリストモデルに対するより良いあるいは競争力のある微調整性能、(3)効率的な微調整と新規タスク合成(例えば、キャプションと画像編集)のための柔軟性を実現する。
コード、デモ、ビデオ、可視化はhttps://x-decoder-vl.github.ioで利用可能である。
関連論文リスト
- OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Do Vision and Language Encoders Represent the World Similarly? [22.70701869402434]
CLIPのようなアライメントされたテキストイメージエンコーダは、視覚言語タスクのデファクトモデルになっている。
非整列および整列エンコーダの表現空間は意味論的に類似していることがわかった。
CLIPのようなアライメントエンコーダに統計的に類似性がない場合、アライメントされていないエンコーダのマッチングがトレーニングなしで存在することを示す。
論文 参考訳(メタデータ) (2024-01-10T15:51:39Z) - i-Code V2: An Autoregressive Generation Framework over Vision, Language,
and Speech Data [101.52821120195975]
i-Code V2は、視覚、言語、音声データの組み合わせから自然言語を生成することができる最初のモデルである。
システムは、デュアルモダリティとシングルモダリティのデータセットの大規模なコレクション上で、エンドツーエンドで事前訓練される。
論文 参考訳(メタデータ) (2023-05-21T01:25:44Z) - Linguistic Query-Guided Mask Generation for Referring Image Segmentation [10.130530501400079]
画像セグメンテーションの参照は、与えられた言語表現に従って、興味のある画像領域をセグメンテーションすることを目的としている。
本稿では,言語クエリ誘導マスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-16T13:38:22Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。