論文の概要: A Dataset and Framework for Learning State-invariant Object Representations
- arxiv url: http://arxiv.org/abs/2404.06470v2
- Date: Thu, 27 Feb 2025 17:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:54:57.954403
- Title: A Dataset and Framework for Learning State-invariant Object Representations
- Title(参考訳): 状態不変オブジェクト表現学習のためのデータセットとフレームワーク
- Authors: Rohan Sarkar, Avinash Kak,
- Abstract要約: 我々は、任意の視点から記録されたオブジェクト画像の状態をキャプチャし、バリエーションを付加する新しいデータセット、ObjectsWithStateChangeを提案する。
カリキュラム学習が果たす役割に関連するアブレーションは, 対象認識精度が7.9%向上し, 検索mAPが9.2%向上したことを示す。
- 参考スコア(独自算出の注目度): 0.6577148087211809
- License:
- Abstract: We add one more invariance - the state invariance - to the more commonly used other invariances for learning object representations for recognition and retrieval. By state invariance, we mean robust with respect to changes in the structural form of the objects, such as when an umbrella is folded, or when an item of clothing is tossed on the floor. In this work, we present a novel dataset, ObjectsWithStateChange, which captures state and pose variations in the object images recorded from arbitrary viewpoints. We believe that this dataset will facilitate research in fine-grained object recognition and retrieval of 3D objects that are capable of state changes. The goal of such research would be to train models capable of learning discriminative object embeddings that remain invariant to state changes while also staying invariant to transformations induced by changes in viewpoint, pose, illumination, etc. A major challenge in this regard is that instances of different objects (both within and across different categories) under various state changes may share similar visual characteristics and therefore may be close to one another in the learned embedding space, which would make it more difficult to discriminate between them. To address this, we propose a curriculum learning strategy that progressively selects object pairs with smaller inter-object distances in the learned embedding space during the training phase. This approach gradually samples harder-to-distinguish examples of visually similar objects, both within and across different categories. Our ablation related to the role played by curriculum learning indicates an improvement in object recognition accuracy of 7.9% and retrieval mAP of 9.2% over the state-of-the-art on our new dataset, as well as three other challenging multi-view datasets such as ModelNet40, ObjectPI, and FG3D.
- Abstract(参考訳): 認識と検索のためのオブジェクト表現を学習するために、より一般的に使用される他の不変性に、もう1つの不変性(状態不変性)を加えます。
状態不変性によって、傘が折りたたまれたときや衣服が床に投げられたときなど、オブジェクトの構造形態の変化に対して堅牢であることを意味する。
本研究では、任意の視点から記録されたオブジェクト画像の状態と変動をキャプチャし、ポーズする新しいデータセット、ObjectsWithStateChangeを提案する。
このデータセットは、状態変化が可能な3Dオブジェクトの微粒な物体認識と検索を容易にすると我々は信じている。
このような研究の目的は、状態変化に不変でありながら、視点の変化、ポーズ、照明などによって誘導される変換に不変である識別対象の埋め込みを学習できるモデルを訓練することである。
この点において大きな課題は、様々な状態変化の下で異なるオブジェクトのインスタンスが類似した視覚的特徴を共有しているため、学習された埋め込み空間において互いに近接しているため、それらの区別がより難しくなることである。
そこで本研究では,学習期間中に学習した埋め込み空間において,オブジェクト間距離の小さいオブジェクトペアを段階的に選択するカリキュラム学習戦略を提案する。
このアプローチは徐々に、異なるカテゴリ内および横断的に、視覚的に類似したオブジェクトの区別が難しい例をサンプリングする。
カリキュラム学習で果たす役割に関するアブレーションは、新しいデータセットの最先端よりも、オブジェクト認識精度が7.9%向上し、検索mAPが9.2%向上し、ModelNet40、ObjectPI、FG3Dといった他の3つの挑戦的なマルチビューデータセットも改善したことを示している。
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - CLOVER: Context-aware Long-term Object Viewpoint- and Environment- Invariant Representation Learning [7.376512548629663]
様々な照明条件と視点下での8クラス557個のオブジェクトの1,037,814個の観測を含む,Wild オブジェクト再識別データセット CODa Re-ID を紹介する。
また,静的なオブジェクトインスタンスを区別可能なオブジェクト観測のための表現学習手法であるCLOVERを提案する。
論文 参考訳(メタデータ) (2024-07-12T23:16:48Z) - ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes [64.57705752579207]
本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。
我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-07T17:48:48Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Unsupervised Part Discovery via Feature Alignment [15.67978793872039]
我々はニューラルネットワークの特徴がニュアンス変数にほとんど不変であるという特性を利用する。
対応する特徴写像のアフィンアライメントを通して、同じポーズで同じオブジェクトカテゴリのインスタンスを示す類似した画像のセットを見つける。
推論中は、部品検出はシンプルで高速で、フィードフォワードニューラルネットワーク以外の追加モジュールやオーバーヘッドは不要である。
論文 参考訳(メタデータ) (2020-12-01T07:25:00Z) - Learning visual policies for building 3D shape categories [130.7718618259183]
この領域における以前の作業は、しばしば既知のプリミティブの集合から特定のオブジェクトのインスタンスを組み立てる。
私たちは、同じカテゴリの他のインスタンスを組み立てるための視覚ポリシーを学びます。
我々の視覚アセンブリポリシーは、実際の画像なしで訓練され、実際のロボットで評価した場合、95%の成功率に達する。
論文 参考訳(メタデータ) (2020-04-15T17:29:10Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。