論文の概要: An Extensible Multimodal Multi-task Object Dataset with Materials
- arxiv url: http://arxiv.org/abs/2305.14352v1
- Date: Sat, 29 Apr 2023 09:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-28 05:01:03.273339
- Title: An Extensible Multimodal Multi-task Object Dataset with Materials
- Title(参考訳): 材料を用いた拡張可能なマルチモーダルマルチタスクオブジェクトデータセット
- Authors: Trevor Standley, Ruohan Gao, Dawn Chen, Jiajun Wu, Silvio Savarese
- Abstract要約: これは280万以上のオブジェクトを含み、それぞれが画像、テキスト、質量、価格、製品評価、およびAmazonの製品カテゴリー分類における位置をリストアップしている。
EMMaはコンピュータビジョンとNLPにおけるマルチタスク学習のための新しいベンチマークを提供する。
- 参考スコア(独自算出の注目度): 45.678670724745466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present EMMa, an Extensible, Multimodal dataset of Amazon product listings
that contains rich Material annotations. It contains more than 2.8 million
objects, each with image(s), listing text, mass, price, product ratings, and
position in Amazon's product-category taxonomy. We also design a comprehensive
taxonomy of 182 physical materials (e.g., Plastic $\rightarrow$ Thermoplastic
$\rightarrow$ Acrylic). Objects are annotated with one or more materials from
this taxonomy. With the numerous attributes available for each object, we
develop a Smart Labeling framework to quickly add new binary labels to all
objects with very little manual labeling effort, making the dataset extensible.
Each object attribute in our dataset can be included in either the model inputs
or outputs, leading to combinatorial possibilities in task configurations. For
example, we can train a model to predict the object category from the listing
text, or the mass and price from the product listing image. EMMa offers a new
benchmark for multi-task learning in computer vision and NLP, and allows
practitioners to efficiently add new tasks and object attributes at scale.
- Abstract(参考訳): リッチマテリアルアノテーションを含むAmazon製品リストの,拡張可能なマルチモーダルデータセットEMMaを提案する。
これは280万以上のオブジェクトを含み、それぞれが画像、テキスト、質量、価格、製品評価、およびAmazonの製品分類における位置をリストアップしている。
182の物理材料(プラスチック$\rightarrow$熱可塑性$\rightarrow$ acrylic)の包括的な分類も設計しています。
対象は、この分類から1つまたは複数の材料で注釈される。
各オブジェクトに利用可能な多数の属性で、我々はSmart Labelingフレームワークを開発し、手作業によるラベル付けをほとんど行わずに、すべてのオブジェクトに新しいバイナリラベルを素早く追加し、データセットを拡張可能にします。
データセットの各オブジェクト属性は、モデル入力または出力のいずれかに含めることができるため、タスク設定の組合せ可能性につながります。
例えば、リストテキストからオブジェクトカテゴリを予測するためにモデルをトレーニングしたり、製品一覧画像から商品の質量と価格を予測することができる。
emmaはコンピュータビジョンとnlpでマルチタスク学習のための新しいベンチマークを提供し、実践者が大規模に新しいタスクやオブジェクト属性を効率的に追加できるようにする。
関連論文リスト
- EUFCC-340K: A Faceted Hierarchical Dataset for Metadata Annotation in GLAM Collections [6.723689308768857]
EUFCC340Kデータセットは、AAT(Art & Architecture Thesaurus)に基づいた階層構造に従って、材料、オブジェクトタイプ、ディシプリエンス、主題という、複数の面にまたがって構成されている。
2つの異なるテストシナリオにおけるモデルロバスト性および一般化能力の評価実験は、マルチラベル分類ツールの改善におけるデータセットの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-04T14:57:56Z) - List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs [160.6296629396925]
『各項目を1つずつリストアップ』では、タグの数字順に従って画像上に表示される全ての視覚タグを列挙して記述するようモデルに求めている。
比較的小さな(タグ付き10k-30k画像)でも、この新しいデータセットは視覚的推論能力を大幅に向上させ、MLLMの幻覚を低減させる。
論文 参考訳(メタデータ) (2024-04-25T07:29:17Z) - Retail-786k: a Large-Scale Dataset for Visual Entity Matching [0.0]
本稿では,視覚的実体マッチングのための大規模データセットについて紹介する。
合計で786kの注釈付き高解像度の製品イメージを3kのエンティティにグループ分けした18kの個別小売製品を含む。
提案した「視覚的実体マッチング」は,標準画像に基づく分類と検索アルゴリズムでは十分解決できない新しい学習問題を構成する。
論文 参考訳(メタデータ) (2023-09-29T11:58:26Z) - EgoObjects: A Large-Scale Egocentric Dataset for Fine-Grained Object
Understanding [11.9023437362986]
EgoObjectsは、きめ細かいオブジェクト理解のための大規模なエゴセントリックなデータセットである。
パイロットバージョンには、50か国以上の250人の参加者が4つのウェアラブルデバイスを使って収集した9Kビデオが含まれている。
EgoObjectsはまた、各オブジェクトにインスタンスレベルの識別子をアノテートする。
論文 参考訳(メタデータ) (2023-09-15T23:55:43Z) - Learning Dynamic Attribute-factored World Models for Efficient
Multi-object Reinforcement Learning [6.447052211404121]
多くの強化学習タスクでは、エージェントは異なるタイプの多くのオブジェクトと対話し、目に見えない組み合わせやオブジェクト数に一般化する必要がある。
最近の研究は、サンプル効率を改善するために、オブジェクト指向表現と階層的抽象化の利点を示している。
本稿では、動的属性FacTored RL(DAFT-RL)フレームワークを導入し、オブジェクト属性の係数化の利点を利用する。
論文 参考訳(メタデータ) (2023-07-18T12:41:28Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - LMSeg: Language-guided Multi-dataset Segmentation [15.624630978858324]
我々はLMSegと呼ばれる言語誘導型マルチデータセットフレームワークを提案し、セマンティックとパンプトのセグメンテーションの両方をサポートしている。
LMSegは、柔軟性のない1ホットラベルを使用する代わりに、カテゴリ名をテキスト埋め込みスペースに統一された分類としてマッピングする。
実験により,本手法は4つのセグメンテーションデータセットと3つのパノプティックセグメンテーションデータセットに対して有意な改善が得られた。
論文 参考訳(メタデータ) (2023-02-27T03:43:03Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Sequential Modeling with Multiple Attributes for Watchlist
Recommendation in E-Commerce [67.6615871959902]
電子商取引におけるウォッチリスト機能について検討し、新しいウォッチリスト推薦タスクを導入する。
私たちのゴールは、ユーザーが次にクリックするアイテムを予測することで、ユーザーが次に注意を払うべきウォッチリスト項目を優先順位付けすることです。
提案するレコメンデーションモデルであるTrans2DはTransformerアーキテクチャ上に構築されている。
論文 参考訳(メタデータ) (2021-10-18T10:02:15Z) - Captioning Images with Novel Objects via Online Vocabulary Expansion [62.525165808406626]
新規なオブジェクトを含む画像から記述を生成するための低コストな手法を提案する。
本稿では,少数の画像特徴量から推定したオブジェクトの単語埋め込みを用いて,新たなオブジェクトで画像を説明する手法を提案する。
論文 参考訳(メタデータ) (2020-03-06T16:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。