論文の概要: CLiC: Concept Learning in Context
- arxiv url: http://arxiv.org/abs/2311.17083v1
- Date: Tue, 28 Nov 2023 01:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 00:32:12.366828
- Title: CLiC: Concept Learning in Context
- Title(参考訳): CLiC: コンテキストにおける概念学習
- Authors: Mehdi Safaee, Aryan Mikaeili, Or Patashnik, Daniel Cohen-Or, Ali
Mahdavi-Amiri
- Abstract要約: 本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
- 参考スコア(独自算出の注目度): 54.81654147248919
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper addresses the challenge of learning a local visual pattern of an
object from one image, and generating images depicting objects with that
pattern. Learning a localized concept and placing it on an object in a target
image is a nontrivial task, as the objects may have different orientations and
shapes. Our approach builds upon recent advancements in visual concept
learning. It involves acquiring a visual concept (e.g., an ornament) from a
source image and subsequently applying it to an object (e.g., a chair) in a
target image. Our key idea is to perform in-context concept learning, acquiring
the local visual concept within the broader context of the objects they belong
to. To localize the concept learning, we employ soft masks that contain both
the concept within the mask and the surrounding image area. We demonstrate our
approach through object generation within an image, showcasing plausible
embedding of in-context learned concepts. We also introduce methods for
directing acquired concepts to specific locations within target images,
employing cross-attention mechanisms, and establishing correspondences between
source and target objects. The effectiveness of our method is demonstrated
through quantitative and qualitative experiments, along with comparisons
against baseline techniques.
- Abstract(参考訳): 本稿では,物体の局所的な視覚パターンを1つの画像から学習し,そのパターンで表現した画像を生成する課題について述べる。
ローカライズされた概念を学習し、対象のイメージにオブジェクトを置くことは、異なる方向や形を持つ可能性があるため、非自明な作業である。
我々のアプローチは視覚概念学習の最近の進歩に基づいている。
ソースイメージから視覚概念(例えば、装飾)を取得し、その後、ターゲットイメージ内のオブジェクト(例えば、椅子)に適用する。
私たちの重要なアイデアは、コンテキスト内コンセプト学習を実行し、それらが属するオブジェクトの広いコンテキスト内でローカルなビジュアル概念を取得することです。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
画像内のオブジェクト生成によるアプローチを実証し,コンテキスト内学習概念の活用可能性を示す。
また,取得した概念を対象画像内の特定の場所に向ける手法を導入し,クロスアテンション機構を導入し,ソースとターゲットオブジェクトの対応性を確立する。
本手法の有効性を定量的・質的実験と基礎技術との比較により実証した。
関連論文リスト
- Explainable Concept Generation through Vision-Language Preference Learning [7.736445799116692]
概念に基づく説明は、ポストホック後のディープニューラルネットワークを説明するための一般的な選択肢となっている。
視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。
提案手法の有効性と信頼性に加えて,ニューラルネットワーク解析の診断ツールとしての有用性を示す。
論文 参考訳(メタデータ) (2024-08-24T02:26:42Z) - Learning Scene Context Without Images [2.8184014933789365]
本研究では,アテンション機構を用いてシーンコンテキストの知識を機械に教える新しい手法を提案する。
提案手法の特筆すべき側面は、シーンコンテキストを教えるための画像データセットからのラベルのみに依存することである。
本研究では,異なるオブジェクト間のシーンワイドな関係を自己認識機構を用いて学習する方法を示す。
論文 参考訳(メタデータ) (2023-11-18T07:27:25Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Few-Shot Object Detection by Knowledge Distillation Using
Bag-of-Visual-Words Representations [58.48995335728938]
対象検出器の学習を導くための新しい知識蒸留フレームワークを設計する。
まず,視覚単語の代表的な袋を学習するための単語の位置認識モデルを提案する。
次に、2つの異なる特徴空間において、画像が一貫したBoVW表現を持つべきであるという事実に基づいて知識蒸留を行う。
論文 参考訳(メタデータ) (2022-07-25T10:40:40Z) - Unsupervised Learning of Compositional Energy Concepts [70.11673173291426]
本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
論文 参考訳(メタデータ) (2021-11-04T17:46:12Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。