論文の概要: Image Translation as Diffusion Visual Programmers
- arxiv url: http://arxiv.org/abs/2401.09742v1
- Date: Thu, 18 Jan 2024 05:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 17:44:57.859305
- Title: Image Translation as Diffusion Visual Programmers
- Title(参考訳): 拡散視覚プログラマとしての画像翻訳
- Authors: Cheng Han, James C. Liang, Qifan Wang, Majid Rabbani, Sohail Dianat,
Raghuveer Rao, Ying Nian Wu, Dongfang Liu
- Abstract要約: Diffusion Visual Programmer (DVP) は、ニューロシンボリックな画像翻訳フレームワークである。
我々のフレームワークはGPTアーキテクチャ内に条件フレキシブル拡散モデルをシームレスに組み込む。
大規模な実験は、DVPの卓越したパフォーマンスを示し、同時に芸術を超越している。
- 参考スコア(独自算出の注目度): 52.09889190442439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the novel Diffusion Visual Programmer (DVP), a neuro-symbolic
image translation framework. Our proposed DVP seamlessly embeds a
condition-flexible diffusion model within the GPT architecture, orchestrating a
coherent sequence of visual programs (i.e., computer vision models) for various
pro-symbolic steps, which span RoI identification, style transfer, and position
manipulation, facilitating transparent and controllable image translation
processes. Extensive experiments demonstrate DVP's remarkable performance,
surpassing concurrent arts. This success can be attributed to several key
features of DVP: First, DVP achieves condition-flexible translation via
instance normalization, enabling the model to eliminate sensitivity caused by
the manual guidance and optimally focus on textual descriptions for
high-quality content generation. Second, the framework enhances in-context
reasoning by deciphering intricate high-dimensional concepts in feature spaces
into more accessible low-dimensional symbols (e.g., [Prompt], [RoI object]),
allowing for localized, context-free editing while maintaining overall
coherence. Last but not least, DVP improves systemic controllability and
explainability by offering explicit symbolic representations at each
programming stage, empowering users to intuitively interpret and modify
results. Our research marks a substantial step towards harmonizing artificial
image translation processes with cognitive intelligence, promising broader
applications.
- Abstract(参考訳): 本稿では,ニューロシンボリック画像翻訳フレームワークであるdvpを提案する。
提案したDVPはGPTアーキテクチャ内に条件フレキシブル拡散モデルをシームレスに組み込み,RoI識別,スタイル転送,位置操作にまたがる多種多様な視覚的プログラム(コンピュータビジョンモデル)のコヒーレントなシーケンスを編成し,透過的かつ制御可能な画像翻訳プロセスを容易にする。
大規模な実験は、DVPの卓越したパフォーマンスを示し、同時に芸術を超越している。
第一に、DVPはインスタンスの正規化を通じて条件フレキシブルな翻訳を実現し、手動ガイダンスによる感度を排除し、高品質なコンテンツ生成のためのテキスト記述に最適に集中できるようにします。
第二に、このフレームワークは特徴空間における複雑な高次元概念をよりアクセスしやすい低次元のシンボル(例えば [Prompt], [RoI object])に解読することで、コンテキスト内推論を強化する。
最後に、DVPは、各プログラミング段階で明示的な記号表現を提供することで、システム制御性と説明可能性を改善し、ユーザが直感的に解釈し、結果を変更することを可能にする。
我々の研究は、人工画像翻訳プロセスと認知知能を調和させるための重要なステップであり、より広範な応用を約束する。
関連論文リスト
- Hierarchical Vision-Language Alignment for Text-to-Image Generation via Diffusion Models [0.7366405857677226]
Vision-Language Aligned Diffusion(VLAD)モデルは、デュアルストリーム戦略を通じて課題に対処する生成フレームワークである。
VLADはテキストプロンプトをグローバルおよびローカルな表現に分解し、視覚的特徴と正確に一致させる。
高忠実度画像を生成するための階層的ガイダンスを備えた多段階拡散プロセスが組み込まれている。
論文 参考訳(メタデータ) (2025-01-01T18:27:13Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - LLV-FSR: Exploiting Large Language-Vision Prior for Face Super-resolution [67.23699927053191]
LLV-FSRと呼ばれる新しいフレームワークを提案する。このフレームワークは、大きな視覚言語モデルと高次視覚モデルのパワーと、顔超解像の課題とをマージする。
MMCelebA-HQデータセットのPSNRでSOTAを0.43dB以上上回って,提案手法は再構築品質と知覚品質の両方を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-11-14T09:12:18Z) - LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition [17.388776062997813]
視覚シーンの画像データとテキスト記述を融合させることにより、識別可能なグローバル表現を構築しようとする。
モチベーションは2つある: 1) 現在のLVLM(Large Vision-Language Models)は、画像のテキスト記述を生成する際に、視覚的な指示に従う際、異常な創発的能力を示す。
有望ではあるが、マルチモーダルVPRソリューションの構築にLVLMを活用することは、効率的なマルチモーダル融合において困難である。
論文 参考訳(メタデータ) (2024-07-09T10:15:31Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language
Recognition with Variational Alignment [42.10603331311837]
手話認識(SLR)は、手話ビデオにテキストグルースとして注釈をつける弱い教師付きタスクである。
近年の研究では、大規模手話データセットの欠如による訓練不足がSLRの主なボトルネックとなっている。
視覚と言語の両方のモダリティの事前訓練された知識を十分に探求するために,SLR,-SLRのための新しいコントラッシブ・ビジュアル・トランスフォーメーションを提案する。
論文 参考訳(メタデータ) (2023-03-10T06:12:36Z) - Interactive Face Video Coding: A Generative Compression Framework [18.26476468644723]
本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
論文 参考訳(メタデータ) (2023-02-20T11:24:23Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。