論文の概要: Learning State-Invariant Representations of Objects from Image Collections with State, Pose, and Viewpoint Changes
- arxiv url: http://arxiv.org/abs/2404.06470v1
- Date: Tue, 9 Apr 2024 17:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 13:51:47.779313
- Title: Learning State-Invariant Representations of Objects from Image Collections with State, Pose, and Viewpoint Changes
- Title(参考訳): 状態, 姿勢, 視点変化を考慮した画像からの物体の状態不変表現の学習
- Authors: Rohan Sarkar, Avinash Kak,
- Abstract要約: 我々は、任意の視点から記録されたオブジェクト画像の状態をキャプチャし、バリエーションを示す新しいデータセット、ObjectsWithStateChangeを提案する。
このような研究の目的は、状態変化に不変なオブジェクト埋め込みを生成することができるモデルをトレーニングすることである。
本稿では,各エポック後に学習した埋め込み空間における類似性関係を利用して学習過程を指導するカリキュラム学習戦略を提案する。
- 参考スコア(独自算出の注目度): 0.6577148087211809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We add one more invariance - state invariance - to the more commonly used other invariances for learning object representations for recognition and retrieval. By state invariance, we mean robust with respect to changes in the structural form of the object, such as when an umbrella is folded, or when an item of clothing is tossed on the floor. Since humans generally have no difficulty in recognizing objects despite such state changes, we are naturally faced with the question of whether it is possible to devise a neural architecture with similar abilities. To that end, we present a novel dataset, ObjectsWithStateChange, that captures state and pose variations in the object images recorded from arbitrary viewpoints. We believe that this dataset will facilitate research in fine-grained object recognition and retrieval of objects that are capable of state changes. The goal of such research would be to train models capable of generating object embeddings that remain invariant to state changes while also staying invariant to transformations induced by changes in viewpoint, pose, illumination, etc. To demonstrate the usefulness of the ObjectsWithStateChange dataset, we also propose a curriculum learning strategy that uses the similarity relationships in the learned embedding space after each epoch to guide the training process. The model learns discriminative features by comparing visually similar objects within and across different categories, encouraging it to differentiate between objects that may be challenging to distinguish due to changes in their state. We believe that this strategy enhances the model's ability to capture discriminative features for fine-grained tasks that may involve objects with state changes, leading to performance improvements on object-level tasks not only on our new dataset, but also on two other challenging multi-view datasets such as ModelNet40 and ObjectPI.
- Abstract(参考訳): 認識と検索のためのオブジェクト表現を学習するために、より一般的に使用される他の不変性に、もう1つの不変性(状態不変性)を追加します。
状態不変性によって、傘が折りたたまれたときや衣服が床に投げられたときなど、オブジェクトの構造形態の変化に対して堅牢であることを意味する。
このような状態変化にもかかわらず、一般に人間は物体を認識するのが困難ではないため、我々は同様の能力を持つ神経アーキテクチャを考案できるかどうかという疑問に直面している。
その目的のために,任意の視点から記録されたオブジェクト画像の状態をキャプチャし,変動を示す新しいデータセット,ObjectsWithStateChangeを提案する。
このデータセットは、状態変化が可能なオブジェクトのきめ細かいオブジェクト認識と検索を容易にすると我々は信じている。
このような研究の目的は、状態変化に不変でありながら、視点の変化やポーズ、照明などによって引き起こされる変換に不変であるオブジェクト埋め込みを生成することができるモデルをトレーニングすることである。
また,ObjectsWithStateChangeデータセットの有用性を示すために,学習後の埋め込み空間における類似性を利用して学習過程をガイドするカリキュラム学習戦略を提案する。
このモデルは、視覚的に類似した物体を異なるカテゴリーで比較することで識別的特徴を学習し、状態の変化によって区別が難しい物体を区別することを奨励する。
この戦略は、状態変化を伴うオブジェクトを含むきめ細かいタスクに対する差別的特徴をキャプチャする能力を強化し、新しいデータセットだけでなく、ModelNet40やObjectPIといった他の2つの挑戦的なマルチビューデータセット上で、オブジェクトレベルのタスクのパフォーマンス改善につながります。
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - CLOVER: Context-aware Long-term Object Viewpoint- and Environment- Invariant Representation Learning [7.376512548629663]
様々な照明条件と視点下での8クラス557個のオブジェクトの1,037,814個の観測を含む,Wild オブジェクト再識別データセット CODa Re-ID を紹介する。
また,静的なオブジェクトインスタンスを区別可能なオブジェクト観測のための表現学習手法であるCLOVERを提案する。
論文 参考訳(メタデータ) (2024-07-12T23:16:48Z) - ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes [64.57705752579207]
本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。
我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-07T17:48:48Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Unsupervised Part Discovery via Feature Alignment [15.67978793872039]
我々はニューラルネットワークの特徴がニュアンス変数にほとんど不変であるという特性を利用する。
対応する特徴写像のアフィンアライメントを通して、同じポーズで同じオブジェクトカテゴリのインスタンスを示す類似した画像のセットを見つける。
推論中は、部品検出はシンプルで高速で、フィードフォワードニューラルネットワーク以外の追加モジュールやオーバーヘッドは不要である。
論文 参考訳(メタデータ) (2020-12-01T07:25:00Z) - Learning visual policies for building 3D shape categories [130.7718618259183]
この領域における以前の作業は、しばしば既知のプリミティブの集合から特定のオブジェクトのインスタンスを組み立てる。
私たちは、同じカテゴリの他のインスタンスを組み立てるための視覚ポリシーを学びます。
我々の視覚アセンブリポリシーは、実際の画像なしで訓練され、実際のロボットで評価した場合、95%の成功率に達する。
論文 参考訳(メタデータ) (2020-04-15T17:29:10Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。