論文の概要: v-CLR: View-Consistent Learning for Open-World Instance Segmentation
- arxiv url: http://arxiv.org/abs/2504.01383v1
- Date: Wed, 02 Apr 2025 05:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:38.266375
- Title: v-CLR: View-Consistent Learning for Open-World Instance Segmentation
- Title(参考訳): v-CLR: オープンワールドインスタンスセグメンテーションのためのビュー一貫性学習
- Authors: Chang-Bin Zhang, Jinhong Ni, Yujie Zhong, Kai Han,
- Abstract要約: バニラ視覚ネットワークは、オブジェクトを認識するために外観情報、例えばテクスチャを学ぶことに偏っている。
この暗黙のバイアスは、オープンワールド設定で見えないテクスチャを持つ新しいオブジェクトの検出において、モデルが失敗する原因となる。
本稿では、堅牢なインスタンスセグメンテーションのための外観不変表現を学習するためにモデルを強制することを目的としたビュー一貫性LeaRning(v-CLR)を提案する。
- 参考スコア(独自算出の注目度): 24.32192108470939
- License:
- Abstract: In this paper, we address the challenging problem of open-world instance segmentation. Existing works have shown that vanilla visual networks are biased toward learning appearance information, \eg texture, to recognize objects. This implicit bias causes the model to fail in detecting novel objects with unseen textures in the open-world setting. To address this challenge, we propose a learning framework, called view-Consistent LeaRning (v-CLR), which aims to enforce the model to learn appearance-invariant representations for robust instance segmentation. In v-CLR, we first introduce additional views for each image, where the texture undergoes significant alterations while preserving the image's underlying structure. We then encourage the model to learn the appearance-invariant representation by enforcing the consistency between object features across different views, for which we obtain class-agnostic object proposals using off-the-shelf unsupervised models that possess strong object-awareness. These proposals enable cross-view object feature matching, greatly reducing the appearance dependency while enhancing the object-awareness. We thoroughly evaluate our method on public benchmarks under both cross-class and cross-dataset settings, achieving state-of-the-art performance. Project page: https://visual-ai.github.io/vclr
- Abstract(参考訳): 本稿では,オープンワールドインスタンスセグメンテーションの課題に対処する。
既存の研究では、バニラ視覚ネットワークは、物体を認識するために、外観情報、セグテクスチャの学習に偏っていることが示されている。
この暗黙のバイアスは、オープンワールド設定で目に見えないテクスチャを持つ新しいオブジェクトを検出する際に、モデルが失敗する原因となる。
この課題に対処するため、我々はView-Consistent LeaRning (v-CLR)と呼ばれる学習フレームワークを提案する。
v-CLRでは、画像の基盤構造を保ちながらテクスチャが著しく変化する、各画像に対する追加ビューを最初に導入する。
次に、異なるビューにまたがるオブジェクト特徴間の一貫性を強制することにより、外見不変表現の学習を奨励し、強力なオブジェクト認識を持つ非教師なしモデルを用いて、クラスに依存しないオブジェクト提案を得る。
これらの提案により、オブジェクト間の特徴マッチングが可能となり、オブジェクト認識性を高めながら外観依存性を大幅に低減する。
本手法は,クロスクラスとクロスデータセットの両設定下での公開ベンチマークで徹底的に評価し,最先端性能を実現する。
プロジェクトページ: https://visual-ai.github.io/vclr
関連論文リスト
- Bootstrapping Top-down Information for Self-modulating Slot Attention [29.82550058869251]
トップダウン経路を組み込んだ新しいOCLフレームワークを提案する。
この経路は個々のオブジェクトのセマンティクスをブートストラップし、モデルを変更してこれらのセマンティクスに関連する特徴を優先順位付けする。
我々のフレームワークは、複数の合成および実世界のオブジェクト発見ベンチマークにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-04T05:00:49Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - On the robustness of self-supervised representations for multi-view
object classification [0.0]
インスタンス識別の目的に基づく自己教師型表現は、オブジェクトの視点や視点の変化に対してより堅牢なオブジェクトの表現に繋がることを示す。
自己監督型表現は、オブジェクトの視点に対してより堅牢であり、新しい視点からオブジェクトの認識を促進するオブジェクトに関するより関連する情報をエンコードしているように見える。
論文 参考訳(メタデータ) (2022-07-27T17:24:55Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。