論文の概要: Cropper: Vision-Language Model for Image Cropping through In-Context Learning
- arxiv url: http://arxiv.org/abs/2408.07790v1
- Date: Wed, 14 Aug 2024 20:03:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 15:38:42.383978
- Title: Cropper: Vision-Language Model for Image Cropping through In-Context Learning
- Title(参考訳): Cropper: インコンテキスト学習によるイメージクロップのための視覚言語モデル
- Authors: Seung Hyun Lee, Junjie Ke, Yinxiao Li, Junfeng He, Steven Hickson, Katie Datsenko, Sangpil Kim, Ming-Hsuan Yang, Irfan Essa, Feng Yang,
- Abstract要約: 画像トリミングの目標は、画像内の視覚的に魅力的な作物を特定することである。
近年の大規模視覚言語モデル(VLM)のブレークスルーにより、明示的なトレーニングを伴わずに、コンテキスト内学習が可能になった。
本稿では,VLMを画像トリミングに有効活用する手法を提案する。
- 参考スコア(独自算出の注目度): 57.694845787252916
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The goal of image cropping is to identify visually appealing crops within an image. Conventional methods rely on specialized architectures trained on specific datasets, which struggle to be adapted to new requirements. Recent breakthroughs in large vision-language models (VLMs) have enabled visual in-context learning without explicit training. However, effective strategies for vision downstream tasks with VLMs remain largely unclear and underexplored. In this paper, we propose an effective approach to leverage VLMs for better image cropping. First, we propose an efficient prompt retrieval mechanism for image cropping to automate the selection of in-context examples. Second, we introduce an iterative refinement strategy to iteratively enhance the predicted crops. The proposed framework, named Cropper, is applicable to a wide range of cropping tasks, including free-form cropping, subject-aware cropping, and aspect ratio-aware cropping. Extensive experiments and a user study demonstrate that Cropper significantly outperforms state-of-the-art methods across several benchmarks.
- Abstract(参考訳): 画像トリミングの目標は、画像内の視覚的に魅力的な作物を特定することである。
従来の手法では、特定のデータセットでトレーニングされた特殊なアーキテクチャに依存しており、新しい要件に適応するのに苦労している。
近年の大規模視覚言語モデル(VLM)のブレークスルーにより、明示的なトレーニングを伴わずに、コンテキスト内学習が可能になった。
しかし、VLMを用いた視覚下流タスクの効果的な戦略はほとんど不明であり、未解明のままである。
本稿では,VLMを画像トリミングに有効活用する手法を提案する。
まず,画像トリミングのための効率的なプロンプト検索機構を提案する。
第2に、予測された作物を反復的に増強する反復的改良戦略を導入する。
提案したフレームワークはCropperという名前で,自由形態の収穫,主観的な収穫,アスペクト比の収穫など,幅広い種類の収穫作業に適用可能である。
大規模な実験とユーザスタディにより、Cropperはいくつかのベンチマークで最先端の手法を大きく上回っていることが示されている。
関連論文リスト
- ObjBlur: A Curriculum Learning Approach With Progressive Object-Level Blurring for Improved Layout-to-Image Generation [7.645341879105626]
レイアウト・ツー・イメージ生成モデルを改善するための新しいカリキュラム学習手法であるBlurを提案する。
提案手法は,プログレッシブオブジェクトレベルのぼかしをベースとして,トレーニングを効果的に安定化し,生成画像の品質を向上させる。
論文 参考訳(メタデータ) (2024-04-11T08:50:12Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - An Experience-based Direct Generation approach to Automatic Image
Cropping [0.0]
画像美学を明示的にモデル化することなく,画像を直接収穫する新しい手法を提案する。
我々のモデルは、経験豊富な編集者が収集した画像の大規模なデータセットに基づいて訓練されている。
我々の戦略は2つの関連するタスクにおいて既存の手法と競合するか、あるいは性能が良いことを示す。
論文 参考訳(メタデータ) (2022-12-30T06:25:27Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Object-Aware Cropping for Self-Supervised Learning [21.79324121283122]
本研究では,通常のランダムな作付けに基づく自己教師型学習が,このようなデータセットでは不十分であることを示す。
対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。
オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-01T07:23:37Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。