Fugu-MT 論文翻訳(概要): Cropper: Vision-Language Model for Image Cropping through In-Context Learning

論文の概要: Cropper: Vision-Language Model for Image Cropping through In-Context Learning

arxiv url: http://arxiv.org/abs/2408.07790v1
Date: Wed, 14 Aug 2024 20:03:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-16 15:38:42.383978
Title: Cropper: Vision-Language Model for Image Cropping through In-Context Learning
Title（参考訳）: Cropper: インコンテキスト学習によるイメージクロップのための視覚言語モデル
Authors: Seung Hyun Lee, Junjie Ke, Yinxiao Li, Junfeng He, Steven Hickson, Katie Datsenko, Sangpil Kim, Ming-Hsuan Yang, Irfan Essa, Feng Yang,
Abstract要約: 画像トリミングの目標は、画像内の視覚的に魅力的な作物を特定することである。近年の大規模視覚言語モデル(VLM)のブレークスルーにより、明示的なトレーニングを伴わずに、コンテキスト内学習が可能になった。本稿では,VLMを画像トリミングに有効活用する手法を提案する。
参考スコア（独自算出の注目度）: 57.694845787252916
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The goal of image cropping is to identify visually appealing crops within an image. Conventional methods rely on specialized architectures trained on specific datasets, which struggle to be adapted to new requirements. Recent breakthroughs in large vision-language models (VLMs) have enabled visual in-context learning without explicit training. However, effective strategies for vision downstream tasks with VLMs remain largely unclear and underexplored. In this paper, we propose an effective approach to leverage VLMs for better image cropping. First, we propose an efficient prompt retrieval mechanism for image cropping to automate the selection of in-context examples. Second, we introduce an iterative refinement strategy to iteratively enhance the predicted crops. The proposed framework, named Cropper, is applicable to a wide range of cropping tasks, including free-form cropping, subject-aware cropping, and aspect ratio-aware cropping. Extensive experiments and a user study demonstrate that Cropper significantly outperforms state-of-the-art methods across several benchmarks.
Abstract（参考訳）: 画像トリミングの目標は、画像内の視覚的に魅力的な作物を特定することである。従来の手法では、特定のデータセットでトレーニングされた特殊なアーキテクチャに依存しており、新しい要件に適応するのに苦労している。近年の大規模視覚言語モデル(VLM)のブレークスルーにより、明示的なトレーニングを伴わずに、コンテキスト内学習が可能になった。しかし、VLMを用いた視覚下流タスクの効果的な戦略はほとんど不明であり、未解明のままである。本稿では,VLMを画像トリミングに有効活用する手法を提案する。まず,画像トリミングのための効率的なプロンプト検索機構を提案する。第2に、予測された作物を反復的に増強する反復的改良戦略を導入する。提案したフレームワークはCropperという名前で,自由形態の収穫,主観的な収穫,アスペクト比の収穫など,幅広い種類の収穫作業に適用可能である。大規模な実験とユーザスタディにより、Cropperはいくつかのベンチマークで最先端の手法を大きく上回っていることが示されている。

関連論文リスト

Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文参考訳（メタデータ） (2024-12-09T18:51:05Z)
ObjBlur: A Curriculum Learning Approach With Progressive Object-Level Blurring for Improved Layout-to-Image Generation [7.645341879105626]
レイアウト・ツー・イメージ生成モデルを改善するための新しいカリキュラム学習手法であるBlurを提案する。提案手法は,プログレッシブオブジェクトレベルのぼかしをベースとして,トレーニングを効果的に安定化し,生成画像の品質を向上させる。
論文参考訳（メタデータ） (2024-04-11T08:50:12Z)
Learning Subject-Aware Cropping by Outpainting Professional Photos [69.0772948657867]
本稿では,高品質な主観的作物を生産する要因を,プロのストックイメージから学習するための弱教師付きアプローチを提案する。私たちの洞察は、ストックイメージのライブラリと、最新のトレーニング済みのテキスト-画像拡散モデルを組み合わせることです。我々は、収穫された無作為のトレーニングペアの大規模なデータセットを自動的に生成して、収穫モデルをトレーニングすることができる。
論文参考訳（メタデータ） (2023-12-19T11:57:54Z)
Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。 CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文参考訳（メタデータ） (2023-11-07T07:27:16Z)
SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。 SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2023-10-20T08:44:47Z)
An Experience-based Direct Generation approach to Automatic Image Cropping [0.0]
画像美学を明示的にモデル化することなく,画像を直接収穫する新しい手法を提案する。我々のモデルは、経験豊富な編集者が収集した画像の大規模なデータセットに基づいて訓練されている。我々の戦略は2つの関連するタスクにおいて既存の手法と競合するか、あるいは性能が良いことを示す。
論文参考訳（メタデータ） (2022-12-30T06:25:27Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文参考訳（メタデータ） (2022-11-21T14:27:07Z)
Object-Aware Cropping for Self-Supervised Learning [21.79324121283122]
本研究では,通常のランダムな作付けに基づく自己教師型学習が,このようなデータセットでは不十分であることを示す。対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。
論文参考訳（メタデータ） (2021-12-01T07:23:37Z)
MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2020-10-12T00:43:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。