論文の概要: ClipCrop: Conditioned Cropping Driven by Vision-Language Model
- arxiv url: http://arxiv.org/abs/2211.11492v1
- Date: Mon, 21 Nov 2022 14:27:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:17:32.796389
- Title: ClipCrop: Conditioned Cropping Driven by Vision-Language Model
- Title(参考訳): ClipCrop:ビジョンランゲージモデルによる条件付きクロップ
- Authors: Zhihang Zhong, Mingxi Cheng, Zhirong Wu, Yuhui Yuan, Yinqiang Zheng,
Ji Li, Han Hu, Stephen Lin, Yoichi Sato, Imari Sato
- Abstract要約: 我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
- 参考スコア(独自算出の注目度): 90.95403416150724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image cropping has progressed tremendously under the data-driven paradigm.
However, current approaches do not account for the intentions of the user,
which is an issue especially when the composition of the input image is
complex. Moreover, labeling of cropping data is costly and hence the amount of
data is limited, leading to poor generalization performance of current
algorithms in the wild. In this work, we take advantage of vision-language
models as a foundation for creating robust and user-intentional cropping
algorithms. By adapting a transformer decoder with a pre-trained CLIP-based
detection model, OWL-ViT, we develop a method to perform cropping with a text
or image query that reflects the user's intention as guidance. In addition, our
pipeline design allows the model to learn text-conditioned aesthetic cropping
with a small cropping dataset, while inheriting the open-vocabulary ability
acquired from millions of text-image pairs. We validate our model through
extensive experiments on existing datasets as well as a new cropping test set
we compiled that is characterized by content ambiguity.
- Abstract(参考訳): 画像のトリッピングはデータ駆動パラダイムの下で著しく進歩した。
しかし、現在のアプローチではユーザの意図は考慮されていないため、特に入力画像の構成が複雑である場合には問題となる。
さらに、収穫データのラベル付けはコストがかかり、データ量も制限されるため、現在のアルゴリズムの一般化性能は低下する。
本研究では,ロバストかつユーザ意図的な収穫アルゴリズム構築の基盤として,視覚言語モデルを活用する。
事前学習したCLIPベースの検出モデルOWL-ViTにトランスフォーマーデコーダを適応させることで,ユーザの意図を反映したテキストや画像クエリによるトリミングを行う手法を開発した。
さらに当社のパイプライン設計では,数百万のテキストイメージペアから取得したオープンボキャブラリー機能を継承しながら,小さなクロッピングデータセットでテキストコンディショニングによる美的クロッピングを学習することが可能です。
我々は、既存のデータセットに関する広範な実験と、コンテンツあいまいさを特徴とする新たなクロップテストセットを通じて、モデルを検証する。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Zero-Shot Text-to-Image Generation [15.135825501365007]
テキストと画像トークンを単一のデータストリームとして自動回帰モデル化する変換器について述べる。
十分なデータとスケールで、ゼロショットで評価した場合、従来のドメイン固有モデルと競合するアプローチです。
論文 参考訳(メタデータ) (2021-02-24T06:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。