論文の概要: A dual contrastive framework
- arxiv url: http://arxiv.org/abs/2412.10348v1
- Date: Fri, 13 Dec 2024 18:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:54.590115
- Title: A dual contrastive framework
- Title(参考訳): 二重対照的な枠組み
- Authors: Yuan Sun, Zhao Zhang, Jorge Ortiz,
- Abstract要約: 地域レベルの視覚理解は、大規模視覚言語モデルにとって大きな課題となる。
潜在空間のきめ細かいアライメントによる領域レベルの理解を高めるためのフレームワークであるAlignCapを提案する。
- 参考スコア(独自算出の注目度): 7.358205057611624
- License:
- Abstract: In current multimodal tasks, models typically freeze the encoder and decoder while adapting intermediate layers to task-specific goals, such as region captioning. Region-level visual understanding presents significant challenges for large-scale vision-language models. While limited spatial awareness is a known issue, coarse-grained pretraining, in particular, exacerbates the difficulty of optimizing latent representations for effective encoder-decoder alignment. We propose AlignCap, a framework designed to enhance region-level understanding through fine-grained alignment of latent spaces. Our approach introduces a novel latent feature refinement module that enhances conditioned latent space representations to improve region-level captioning performance. We also propose an innovative alignment strategy, the semantic space alignment module, which boosts the quality of multimodal representations. Additionally, we incorporate contrastive learning in a novel manner within both modules to further enhance region-level captioning performance. To address spatial limitations, we employ a General Object Detection (GOD) method as a data preprocessing pipeline that enhances spatial reasoning at the regional level. Extensive experiments demonstrate that our approach significantly improves region-level captioning performance across various tasks
- Abstract(参考訳): 現在のマルチモーダルタスクでは、モデルは通常エンコーダとデコーダを凍結し、中間層を領域キャプションのようなタスク固有の目標に適応させる。
地域レベルの視覚理解は、大規模視覚言語モデルにとって大きな課題となる。
空間認識の制限は既知の問題であるが、特に粗い事前学習は、効果的なエンコーダとデコーダのアライメントのために潜在表現を最適化することが困難である。
潜在空間のきめ細かいアライメントによる領域レベルの理解を高めるためのフレームワークであるAlignCapを提案する。
提案手法では,領域レベルのキャプション性能を向上させるために,条件付きラテント空間表現を強化した新しいラテント特徴改善モジュールを提案する。
また,マルチモーダル表現の質を高める,革新的なアライメント戦略であるセマンティック空間アライメントモジュールを提案する。
さらに,両モジュールにコントラスト学習を取り入れ,領域レベルのキャプション性能をさらに向上させる。
空間的制約に対処するために,地域レベルでの空間的推論を強化するデータ前処理パイプラインとして汎用オブジェクト検出(GOD)手法を用いる。
広範囲な実験により,各タスクにおける領域レベルのキャプション性能が著しく向上することが実証された。
関連論文リスト
- Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。
マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。
実験の結果,既存の手法と比較して最先端の性能が示された。
論文 参考訳(メタデータ) (2024-07-12T15:57:52Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution [54.05367433562495]
領域レベルのマルチモーダリティ手法は、参照画像領域を人間の好む言語記述に変換することができる。
残念ながら、固定的な視覚入力を用いた既存の手法の多くは、正確な言語記述を見つけるための解像度適応性に欠けていたままである。
そこで我々はDynReferと呼ばれるダイナミック・レゾリューション・アプローチを提案し、高精度な領域レベルの参照を追求する。
論文 参考訳(メタデータ) (2024-05-25T05:44:55Z) - ST-LDM: A Universal Framework for Text-Grounded Object Generation in Real Images [9.906943507715779]
テキストグラウンドドオブジェクト生成(TOG)と呼ばれる新しい画像編集シナリオを提案する。
本稿では,Swin-Transformerをベースとした汎用フレームワークST-LDMを提案する。
本モデルでは,拡散モデル固有の生成能力を保ちながら,注意機構の局所化を促進する。
論文 参考訳(メタデータ) (2024-03-15T04:02:31Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z) - DiverGAN: An Efficient and Effective Single-Stage Framework for Diverse
Text-to-Image Generation [7.781425222538382]
DiverGANは、自然言語による記述に従って、多様で、可塑性で、セマンティックに一貫性のある画像を生成するためのフレームワークである。
DiverGANは2つの新しいワードレベルアテンションモジュール、すなわちチャネルアテンションモジュール(CAM)とピクセルアテンションモジュール(PAM)を採用する。
条件適応型インスタンス-階層正規化(CAdaILN)を導入し、文の埋め込みから、形やテクスチャの変化量を柔軟に操作する言語的手がかりを実現する。
論文 参考訳(メタデータ) (2021-11-17T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。