論文の概要: Large-Scale Attribute-Object Compositions
- arxiv url: http://arxiv.org/abs/2105.11373v1
- Date: Mon, 24 May 2021 16:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:08:40.617259
- Title: Large-Scale Attribute-Object Compositions
- Title(参考訳): 大規模属性オブジェクト合成
- Authors: Filip Radenovic, Animesh Sinha, Albert Gordo, Tamara Berg, Dhruv
Mahajan
- Abstract要約: 本研究では,画像からの属性対象合成の予測方法の学習課題と,学習データから欠落した未知の合成への一般化について検討する。
私たちは、ハッシュタグを使ってInstagramの画像でフレームワークをトレーニングします。
我々は、ノイズの多いアノテーションや目に見えない合成を扱うために、データ収集とモデリングのために慎重に設計する。
- 参考スコア(独自算出の注目度): 28.97267708915054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning how to predict attribute-object compositions
from images, and its generalization to unseen compositions missing from the
training data. To the best of our knowledge, this is a first large-scale study
of this problem, involving hundreds of thousands of compositions. We train our
framework with images from Instagram using hashtags as noisy weak supervision.
We make careful design choices for data collection and modeling, in order to
handle noisy annotations and unseen compositions. Finally, extensive
evaluations show that learning to compose classifiers outperforms late fusion
of individual attribute and object predictions, especially in the case of
unseen attribute-object pairs.
- Abstract(参考訳): 本研究では,画像からの属性オブジェクト合成の予測方法と,学習データから欠落した未知の合成への一般化について検討する。
私たちの知る限りでは、これはこの問題に関する数十万の作曲を含む最初の大規模な研究である。
私たちは、ハッシュタグを使ってInstagramの画像でフレームワークをトレーニングします。
ノイズの多いアノテーションや目に見えない構成を扱うために、データ収集とモデリングのために慎重に設計する。
最後に,分類器の構成学習は,個々の属性とオブジェクト予測の後期融合,特に目立たない属性とオブジェクトのペアの場合よりも優れていることを示す。
関連論文リスト
- Cross-composition Feature Disentanglement for Compositional Zero-shot Learning [49.919635694894204]
合成ゼロショット学習(CZSL)において、プリミティブ(属性とオブジェクト)の視覚的特徴の歪みは例外的な結果を示した。
本稿では,複数のプリミティブ・シェアリング・コンポジションを入力とし,これらのコンポジションにまたがって一般化されるような不整合プリミティブ・コンポジションを制約するクロス・コンポジション・コンストラクション・ディエンタングルメントの解を提案する。
論文 参考訳(メタデータ) (2024-08-19T08:23:09Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Learning to Annotate Part Segmentation with Gradient Matching [58.100715754135685]
本稿では,事前学習したGANを用いて,高品質な画像を生成することで,半教師付き部分分割タスクに対処することに焦点を当てる。
特に、アノテータ学習を学習から学習までの問題として定式化する。
提案手法は,実画像,生成された画像,さらには解析的に描画された画像を含む,幅広いラベル付き画像からアノテータを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-11-06T01:29:22Z) - AMICO: Amodal Instance Composition [40.03865667370814]
画像合成は、複数のオブジェクトをブレンドして調和した画像を形成することを目的としている。
対象画像に不完全なオブジェクトをブレンドするためのアモーダルインスタンス構成を提案する。
本結果は,COCOAおよびKINSベンチマークにおける最先端性能を示す。
論文 参考訳(メタデータ) (2022-10-11T23:23:14Z) - Disentangling Visual Embeddings for Attributes and Objects [38.27308243429424]
オブジェクト属性認識における合成ゼロショット学習の問題点について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用する。
視覚空間における属性とオブジェクトの特徴をアンタングルできる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-17T17:59:36Z) - PartImageNet: A Large, High-Quality Dataset of Parts [16.730418538593703]
パートセグメンテーションアノテーションを備えた高品質なデータセットであるPartImageNetを提案する。
PartImageNetは、非厳密で明示的なオブジェクトを持つ一般的なクラスのセットに、部分レベルのアノテーションを提供するため、ユニークなものだ。
複数の視覚タスクで使用できるが、制限はない:Part Discovery、Few-shot Learning。
論文 参考訳(メタデータ) (2021-12-02T02:12:03Z) - Learning to Infer Unseen Attribute-Object Compositions [55.58107964602103]
単一属性と多属性オブジェクトの両方を柔軟に認識できるグラフベースモデルを提案する。
我々は116,099の画像と8,030の合成カテゴリを持つ大規模マルチ属性データセットを構築した。
論文 参考訳(メタデータ) (2020-10-27T14:57:35Z) - A causal view of compositional zero-shot recognition [42.63916938252048]
人々は既知のコンポーネントの新しい組み合わせである新しい視覚カテゴリーを容易に認識する。
この構成一般化能力は、視覚や言語といった現実世界の領域での学習に不可欠である。
ここでは、因果的考えに基づく構成的一般化のアプローチについて述べる。
論文 参考訳(メタデータ) (2020-06-25T17:51:22Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。