論文の概要: Calibration & Reconstruction: Deep Integrated Language for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2404.08281v1
- Date: Fri, 12 Apr 2024 07:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:45:46.096460
- Title: Calibration & Reconstruction: Deep Integrated Language for Referring Image Segmentation
- Title(参考訳): 校正と再構成:画像分割参照のための深層統合言語
- Authors: Yichen Yan, Xingjian He, Sihan Chen, Jing Liu,
- Abstract要約: 画像セグメンテーションの参照は、画像から自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
従来のトランスフォーマーデコーダは、より深い層で言語情報を歪め、最適な結果をもたらす。
本稿では,変換器デコーダのマルチモーダル機能を反復的に校正するモデルであるCRFormerを紹介する。
- 参考スコア(独自算出の注目度): 8.225408779913712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring image segmentation aims to segment an object referred to by natural language expression from an image. The primary challenge lies in the efficient propagation of fine-grained semantic information from textual features to visual features. Many recent works utilize a Transformer to address this challenge. However, conventional transformer decoders can distort linguistic information with deeper layers, leading to suboptimal results. In this paper, we introduce CRFormer, a model that iteratively calibrates multi-modal features in the transformer decoder. We start by generating language queries using vision features, emphasizing different aspects of the input language. Then, we propose a novel Calibration Decoder (CDec) wherein the multi-modal features can iteratively calibrated by the input language features. In the Calibration Decoder, we use the output of each decoder layer and the original language features to generate new queries for continuous calibration, which gradually updates the language features. Based on CDec, we introduce a Language Reconstruction Module and a reconstruction loss. This module leverages queries from the final layer of the decoder to reconstruct the input language and compute the reconstruction loss. This can further prevent the language information from being lost or distorted. Our experiments consistently show the superior performance of our approach across RefCOCO, RefCOCO+, and G-Ref datasets compared to state-of-the-art methods.
- Abstract(参考訳): 画像セグメンテーションの参照は、画像から自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
主な課題は、テキストの特徴から視覚的特徴まで、きめ細かい意味情報の効率的な伝播である。
最近の多くの研究では、この課題に対処するためにTransformerを利用している。
しかし、従来の変圧器デコーダは、より深い層で言語情報を歪め、最適以下の結果をもたらす。
本稿では,トランスデコーダのマルチモーダル機能を反復的に校正するモデルであるCRFormerを紹介する。
まず、視覚機能を使って言語クエリを生成し、入力言語の異なる側面を強調します。
そこで本研究では,複数モーダルな特徴を入力言語の特徴によって反復的に校正できる新しい校正デコーダ(CDec)を提案する。
キャリブレーションデコーダでは、各デコーダ層と元の言語特徴の出力を用いて、連続キャリブレーションのための新しいクエリを生成し、徐々に言語特徴を更新する。
CDecをベースとして,言語再構成モジュールと再構成損失を導入する。
このモジュールはデコーダの最終層からのクエリを利用して、入力言語を再構築し、再構成損失を計算する。
これにより、言語情報が失われたり歪んだりするのを防ぐことができる。
我々の実験は、RefCOCO、RefCOCO+、G-Refデータセットにまたがるアプローチの優れた性能を最先端の手法と比較して一貫して示している。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Inflected Forms Are Redundant in Question Generation Models [27.49894653349779]
本稿では,エンコーダ・デコーダ・フレームワークを用いた質問生成の性能向上手法を提案する。
まず,エンコーダの入力から入力された単語を識別し,根語に置き換える。
次に,エンコード・デコーダ・フレームワークにおける以下の動作の組合せとしてQGを適用することを提案する。質問語の生成,ソースシーケンスからの単語のコピー,単語変換型の生成である。
論文 参考訳(メタデータ) (2023-01-01T13:08:11Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - On the Sub-Layer Functionalities of Transformer Decoder [74.83087937309266]
トランスフォーマーをベースとしたデコーダは,ソースおよびターゲット言語からの情報をいかに活用するかを検討する。
これらの知見に基づき,各トランスフォーマーデコーダ層内の残フィードフォワードモジュールは,性能の低下を最小限に抑えられることを示した。
論文 参考訳(メタデータ) (2020-10-06T11:50:54Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。