論文の概要: Language-Grounded Multi-Domain Image Translation via Semantic Difference Guidance
- arxiv url: http://arxiv.org/abs/2601.07221v1
- Date: Mon, 12 Jan 2026 05:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.228844
- Title: Language-Grounded Multi-Domain Image Translation via Semantic Difference Guidance
- Title(参考訳): セマンティック差分誘導による言語学習型マルチドメイン画像翻訳
- Authors: Jongwon Ryu, Joonhyung Park, Jaeho Han, Yeong-Seok Kim, Hye-rin Kim, Sunjae Yoon, Junyeong Kim,
- Abstract要約: マルチドメイン画像から画像への変換は、自然言語のプロンプトで押された意味的な違いを、対応する視覚的変換に再帰させる。
本稿では,2つのコンポネント上に構築されたLACE(Language-grounded Attribute Controllable Translation)を提案する。
CelebA(Dialog)とBDD100Kの実験では、LACEは高い視覚的忠実度、構造的保存、解釈可能なドメイン固有制御を実現している。
- 参考スコア(独自算出の注目度): 15.370194308451495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-domain image-to-image translation re quires grounding semantic differences ex pressed in natural language prompts into corresponding visual transformations, while preserving unrelated structural and seman tic content. Existing methods struggle to maintain structural integrity and provide fine grained, attribute-specific control, especially when multiple domains are involved. We propose LACE (Language-grounded Attribute Controllable Translation), built on two compo nents: (1) a GLIP-Adapter that fuses global semantics with local structural features to pre serve consistency, and (2) a Multi-Domain Control Guidance mechanism that explicitly grounds the semantic delta between source and target prompts into per-attribute translation vec tors, aligning linguistic semantics with domain level visual changes. Together, these modules enable compositional multi-domain control with independent strength modulation for each attribute. Experiments on CelebA(Dialog) and BDD100K demonstrate that LACE achieves high visual fidelity, structural preservation, and interpretable domain-specific control, surpass ing prior baselines. This positions LACE as a cross-modal content generation framework bridging language semantics and controllable visual translation.
- Abstract(参考訳): マルチドメイン画像から画像への翻訳は、自然言語で押された意味的差異を、無関係な構造的およびセマンティックな内容を保持しながら、対応する視覚的変換へと引き起こす。
既存の手法は、構造的整合性を維持し、特に複数のドメインが関与している場合に、きめ細かい属性固有の制御を提供するのに苦労する。
LACE(Language-grounded Attribute Controllable Translation)は,(1)グローバルなセマンティクスと局所的な構造的特徴を融合したGLIP-Adapter,(2)ソースとターゲット間のセマンティクスのデルタを明示的に定義したマルチドメイン制御誘導機構を,属性ごとの変換ベクターに配置し,言語的セマンティクスとドメインレベルの視覚的変化を整合させる。
これらのモジュールは、それぞれの属性に対して独立した強度変調を伴う構成的マルチドメイン制御を可能にする。
CelebA(Dialog)とBDD100Kの実験では、LACEは高い視覚的忠実度、構造的保存、解釈可能なドメイン固有制御を実現し、以前のベースラインを上回っている。
これにより、LACEは言語意味論と制御可能な視覚翻訳をブリッジするクロスモーダルなコンテンツ生成フレームワークとして位置づけられる。
関連論文リスト
- Exploiting Domain Properties in Language-Driven Domain Generalization for Semantic Segmentation [16.081767698947186]
セマンティックセマンティックセグメンテーションのための新しいドメイン一般化フレームワーク、すなわちドメイン対応のPrompt駆動のMasked Transformer(DPMFormer)を提案する。
まず,視覚とテキスト間のセマンティックアライメントを促進するために,ドメイン認識型プロンプト学習を導入する。
そこで本研究では,観測可能な領域を多様化するテクスチャ摂動とともに,ドメインを意識したコントラスト学習を提案する。
論文 参考訳(メタデータ) (2025-12-03T06:58:38Z) - Language as an Anchor: Preserving Relative Visual Geometry for Domain Incremental Learning [8.952803050083203]
ドメインインクリメンタルラーニングの鍵となる課題は、分散の変化の下で継続的に学習することだ。
テキストベースの参照アンカーによって駆動される相対的アライメントと直接特徴アライメントを置き換える新しいDILフレームワークであるLAVAを提案する。
標準的なDILベンチマークの実験では、LAVAは最先端技術よりも大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-11-18T12:06:55Z) - TFANet: Three-Stage Image-Text Feature Alignment Network for Robust Referring Image Segmentation [8.48847068018671]
本稿では,3段階画像テキスト特徴アライメントネットワークであるTFANetを提案する。
KPS(Knowledge Plus Stage)、KFS(Knowledge Fusion Stage)、KIS(Knowledge Intensification Stage)の3段階からなる階層的なフレームワークを通じて、マルチモーダルアライメントを強化する。
KPSでは,画像領域と言語記述の異なる粒度とのリッチで効率的なアライメントを確立する,MLAM(Multiscale Linear Cross-Attention Module)を設計する。
KFSはさらに、クロスモーダル・フィーチャー・スキャン・モジュール(CFSM)による機能アライメントを強化し、長距離依存関係のキャプチャにマルチモーダル選択的スキャンを適用した。
論文 参考訳(メタデータ) (2025-09-16T13:26:58Z) - Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation [8.068623902839368]
Open-Vocabulary semantic segmentation (OVSS)とDomain Generalization in semantic segmentation (DGSS)は微妙な相補性を強調している。
OV-DGSSは、見えない領域にまたがる堅牢性を保ちながら、見えないカテゴリのためのピクセルレベルのマスクを生成することを目的としている。
我々は,OVSSとDGSSの強みを初めて統一する,OV-DGSSのための新しい単一ステージフレームワークであるVireoを紹介する。
論文 参考訳(メタデータ) (2025-06-11T15:54:47Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - GP-UNIT: Generative Prior for Versatile Unsupervised Image-to-Image
Translation [103.54337984566877]
GP-UNIT(Generative Prior-Guided Unsupervised Image-to-image Translation)を新たに導入する。
GP-UNITは、近接ドメインと遠方のドメインの間で有効な翻訳を行うことができる。
我々は,最先端の翻訳モデルよりも頑健で高品質で多種多様な翻訳におけるGP-UNITの優位性を検証した。
論文 参考訳(メタデータ) (2023-06-07T17:59:22Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - GMM-UNIT: Unsupervised Multi-Domain and Multi-Modal Image-to-Image
Translation via Attribute Gaussian Mixture Modeling [66.50914391679375]
unsupervised image-to-image translation (UNIT) は、未経験の訓練画像を用いて、複数の視覚領域間のマッピングを学習することを目的としている。
最近の研究は、複数のドメインで顕著な成功を示しているが、それらは2つの主要な制限に悩まされている。
GMM-UNITという,空間にGMMを組み込むコンテンツ属性不整合表現に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-03-15T10:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。