論文の概要: pOps: Photo-Inspired Diffusion Operators
- arxiv url: http://arxiv.org/abs/2406.01300v1
- Date: Mon, 3 Jun 2024 13:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 23:09:15.611173
- Title: pOps: Photo-Inspired Diffusion Operators
- Title(参考訳): pOps:フォトインスパイアされた拡散演算子
- Authors: Elad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or,
- Abstract要約: pOpsは、CLIPイメージの埋め込みに直接セマンティック演算子をトレーニングするフレームワークである。
pOpsは、異なる意味を持つ様々なフォトインスパイアされた演算子を学ぶのに利用できることを示す。
- 参考スコア(独自算出の注目度): 55.93078592427929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image generation enables the creation of visual content from textual descriptions. However, certain visual concepts cannot be effectively conveyed through language alone. This has sparked a renewed interest in utilizing the CLIP image embedding space for more visually-oriented tasks through methods such as IP-Adapter. Interestingly, the CLIP image embedding space has been shown to be semantically meaningful, where linear operations within this space yield semantically meaningful results. Yet, the specific meaning of these operations can vary unpredictably across different images. To harness this potential, we introduce pOps, a framework that trains specific semantic operators directly on CLIP image embeddings. Each pOps operator is built upon a pretrained Diffusion Prior model. While the Diffusion Prior model was originally trained to map between text embeddings and image embeddings, we demonstrate that it can be tuned to accommodate new input conditions, resulting in a diffusion operator. Working directly over image embeddings not only improves our ability to learn semantic operations but also allows us to directly use a textual CLIP loss as an additional supervision when needed. We show that pOps can be used to learn a variety of photo-inspired operators with distinct semantic meanings, highlighting the semantic diversity and potential of our proposed approach.
- Abstract(参考訳): テキスト誘導画像生成により、テキスト記述から視覚コンテンツを作成することができる。
しかし、特定の視覚概念は言語だけでは効果的に伝達できない。
これは、IP-Adapterのようなメソッドを通じて、より視覚的に指向したタスクにCLIPイメージの埋め込みスペースを活用することに、新たな関心を喚起した。
興味深いことに、CLIP画像埋め込み空間は意味論的に意味があることが示され、この空間内の線形操作は意味論的に意味のある結果をもたらす。
しかし、これらの操作の特定の意味は、異なる画像間で予測不能に変化する可能性がある。
この可能性を活用するために、私たちは、CLIPイメージの埋め込みに直接、特定のセマンティック演算子をトレーニングするフレームワークであるpOpsを紹介します。
各pOpsオペレータは、事前訓練された拡散事前モデルに基づいて構築される。
Diffusion Priorモデルはもともとテキストの埋め込みと画像の埋め込みをマッピングするために訓練されたものの、新しい入力条件に合わせるように調整できることを実証し、拡散演算子をもたらすことを示した。
イメージ埋め込みを直接処理することで、セマンティック操作の学習能力が向上するだけでなく、必要に応じてテキストCLIP損失を追加の監視として直接使用することが可能になります。
pOpsは、異なる意味を持つ様々なフォトインスパイアされた演算子を学習するために使用でき、提案手法のセマンティック多様性とポテンシャルを強調している。
関連論文リスト
- InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Mining Open Semantics from CLIP: A Relation Transition Perspective for Few-Shot Learning [46.25534556546322]
そこで本稿では,イメージ・アンカー関係から画像・ターゲット関係に遷移して予測を行うアンカーとしてオープンセマンティクスを抽出することを提案する。
本手法は, 数ショットの分類設定を考慮し, 従来の最先端技術に対して良好に機能する。
論文 参考訳(メタデータ) (2024-06-17T06:28:58Z) - Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues [55.97779732051921]
オーキューを分類器学習に明示的に組み込むための新しい学習戦略が提案されている。
分類性能を劣化させることなく階層的解釈性を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-01T02:13:49Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in
Situation Recognition [20.000253437661]
状況認識とは、活動動詞を用いて画像内で起きていることの構造化された要約を生成するタスクである。
言語記述を通して画像の文脈を学習したCLIP基盤モデルを活用する。
ClipSitu XTFとして知られる当社のクロスアテンションベースのトランスフォーマーは、セマンティックロールラベリングにおいて、既存の最先端の14.1%よりも優れています。
論文 参考訳(メタデータ) (2023-07-02T15:05:15Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。