論文の概要: ObjMST: An Object-Focused Multimodal Style Transfer Framework
- arxiv url: http://arxiv.org/abs/2503.04353v1
- Date: Thu, 06 Mar 2025 11:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:27.877329
- Title: ObjMST: An Object-Focused Multimodal Style Transfer Framework
- Title(参考訳): ObjMST: オブジェクト指向マルチモーダルスタイル転送フレームワーク
- Authors: Chanda Grover Kamra, Indra Deep Mastan, Debayan Gupta,
- Abstract要約: 本稿では,オブジェクトや周辺要素を個別に監視する,オブジェクト中心のマルチモーダル・スタイル・トランスファー・フレームワークを提案する。
既存の画像テキスト・マルチモーダル・スタイル・トランスファー手法では,(1)非整合かつ一貫性のないマルチモーダル・スタイル・表現の生成,(2)コンテンツ・ミスマッチ,(2)同一のスタイル・パターンが正常なオブジェクトとその周辺の両方に適用される,といった課題に直面している。
提案手法は,(1)正当性オブジェクトとその周辺の両方に対して整合性と整合性のあるスタイル表現を保証し,(2)正中性オブジェクトをスタイリングする正中性マッピング機構を導入し,次いで画像を生成する。
- 参考スコア(独自算出の注目度): 2.732041684677653
- License:
- Abstract: We propose ObjMST, an object-focused multimodal style transfer framework that provides separate style supervision for salient objects and surrounding elements while addressing alignment issues in multimodal representation learning. Existing image-text multimodal style transfer methods face the following challenges: (1) generating non-aligned and inconsistent multimodal style representations; and (2) content mismatch, where identical style patterns are applied to both salient objects and their surrounding elements. Our approach mitigates these issues by: (1) introducing a Style-Specific Masked Directional CLIP Loss, which ensures consistent and aligned style representations for both salient objects and their surroundings; and (2) incorporating a salient-to-key mapping mechanism for stylizing salient objects, followed by image harmonization to seamlessly blend the stylized objects with their environment. We validate the effectiveness of ObjMST through experiments, using both quantitative metrics and qualitative visual evaluations of the stylized outputs. Our code is available at: https://github.com/chandagrover/ObjMST.
- Abstract(参考訳): 我々は,多モーダル表現学習におけるアライメント問題に対処しつつ,有能なオブジェクトや周辺要素を個別に監視する,オブジェクト中心の多モーダルスタイル転送フレームワークであるObjMSTを提案する。
既存の画像テキスト・マルチモーダル・スタイル・トランスファー手法では,(1)非整合かつ一貫性のないマルチモーダル・スタイル・表現の生成,(2)コンテンツ・ミスマッチ,(2)同一のスタイル・パターンを有能なオブジェクトとその周辺要素に適用する,といった課題に直面している。
提案手法では,(1)有能なオブジェクトとその周辺の両方に対して一貫したスタイル表現を保証し,(2)有能なオブジェクトをスタイリングするための有能なキーマッピング機構を導入し,続いてイメージ調和を行い,その環境とスタイリングされたオブジェクトをシームレスにブレンドする。
我々は, 定量的な計測値と定性的視覚評価値を用いて, 実験によるObjMSTの有効性を検証した。
私たちのコードは、https://github.com/chandagrover/ObjMST.comで利用可能です。
関連論文リスト
- ObjectRelator: Enabling Cross-View Object Relation Understanding in Ego-Centric and Exo-Centric Videos [105.40690994956667]
Ego-Exoオブジェクト対応タスクは、オブジェクトをエゴ中心およびエゴ中心のビューにマップすることを目的としている。
我々は,この課題に対処するための新しい手法であるObjectRelatorを紹介する。
論文 参考訳(メタデータ) (2024-11-28T12:01:03Z) - MOSAIC: Multi-Object Segmented Arbitrary Stylization Using CLIP [0.0]
テキストによって駆動されるスタイル転送は、実際のスタイルイメージを収集することなく、創造的に画像をスタイリングするための新しいパスを舗装した。
入力プロンプトから抽出したコンテキストに基づいて、画像内の異なるオブジェクトにスタイルを適用することができるCLIP(MOSAIC)を用いたマルチオブジェクト分割任意スティル化手法を提案する。
本手法は任意のオブジェクトやスタイルに拡張可能であり,最先端の手法と比較して高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-24T18:24:55Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文 参考訳(メタデータ) (2021-03-22T14:43:25Z) - DeepObjStyle: Deep Object-based Photo Style Transfer [31.75300124593133]
スタイル転送の大きな課題の1つは、出力画像と入力画像(スタイルとコンテンツ)の間の適切な画像特徴の監督である。
トレーニングデータに依存しないフレームワークにおけるスタイル管理のためのオブジェクトベースのスタイル転送手法であるDeepStyleを提案する。
論文 参考訳(メタデータ) (2020-12-11T17:02:01Z) - Empty Cities: a Dynamic-Object-Invariant Space for Visual SLAM [6.693607456009373]
本稿では,シーンの静的な画像を得るためのデータ駆動型アプローチを提案する。
本研究では,都市環境の画像を局所化とマッピングに適したリアルな静的フレームに変換するためのエンドツーエンドのディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-15T10:31:12Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。