論文の概要: BORM: Bayesian Object Relation Model for Indoor Scene Recognition
- arxiv url: http://arxiv.org/abs/2108.00397v1
- Date: Sun, 1 Aug 2021 08:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 06:48:40.380891
- Title: BORM: Bayesian Object Relation Model for Indoor Scene Recognition
- Title(参考訳): BORM:屋内シーン認識のためのベイズオブジェクト関係モデル
- Authors: Liguang Zhou, Jun Cen, Xingchao Wang, Zhenglong Sun, Tin Lun Lam,
Yangsheng Xu
- Abstract要約: 室内のシーン表現に意味のあるオブジェクト表現を活用することを提案する。
まず,改良されたオブジェクトモデル(IOM)をベースラインとして,屋内シーンに関連するリッチなオブジェクトカテゴリを持つADE20Kデータセット上で事前学習したシーン解析アルゴリズムを導入することにより,オブジェクトの知識を充実させる。
オブジェクトの共起とペアのオブジェクト関係を解析するために、ベイズ的オブジェクト関係モデル(BORM)としてベイズ的視点からIOMを定式化する。
- 参考スコア(独自算出の注目度): 3.3274747298291216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene recognition is a fundamental task in robotic perception. For human
beings, scene recognition is reasonable because they have abundant object
knowledge of the real world. The idea of transferring prior object knowledge
from humans to scene recognition is significant but still less exploited. In
this paper, we propose to utilize meaningful object representations for indoor
scene representation. First, we utilize an improved object model (IOM) as a
baseline that enriches the object knowledge by introducing a scene parsing
algorithm pretrained on the ADE20K dataset with rich object categories related
to the indoor scene. To analyze the object co-occurrences and pairwise object
relations, we formulate the IOM from a Bayesian perspective as the Bayesian
object relation model (BORM). Meanwhile, we incorporate the proposed BORM with
the PlacesCNN model as the combined Bayesian object relation model (CBORM) for
scene recognition and significantly outperforms the state-of-the-art methods on
the reduced Places365 dataset, and SUN RGB-D dataset without retraining,
showing the excellent generalization ability of the proposed method. Code can
be found at https://github.com/hszhoushen/borm.
- Abstract(参考訳): シーン認識はロボット知覚の基本的なタスクである。
人間にとって、シーン認識は、現実世界のオブジェクト知識が豊富にあるため合理的である。
事前のオブジェクト知識を人間からシーン認識に転送するというアイデアは重要であるが、それでもあまり役に立たない。
本稿では,室内シーン表現に有意義なオブジェクト表現を用いることを提案する。
まず,改良されたオブジェクトモデル(IOM)をベースラインとして,屋内シーンに関連するリッチなオブジェクトカテゴリを持つADE20Kデータセット上で事前学習したシーン解析アルゴリズムを導入する。
対象の共起や対関係を解析するために,ベイズ的対象関係モデル(BORM)としてベイズ的視点からIOMを定式化する。
一方,提案手法はシーン認識のためのベイズ対象関係モデル (cborm) としてplacescnnモデルに組み込まれ, 削減されたplaces365データセット, sun rgb-dデータセットにおいて, 再トレーニングを行わず, 最先端の手法を著しく上回っている。
コードはhttps://github.com/hszhoushen/borm.orgにある。
関連論文リスト
- Interpretable Action Recognition on Hard to Classify Actions [11.641926922266347]
人間は、明確に認識された物体と部分の間の批判的時間的関係を認識することによって、ビデオにおける複雑な活動を認識する。
これを模倣するために、物体と手の位置と動きを利用したモデルを構築し、その活動が起こっていることを認識します。
このモデルを改善するために、最も混乱した3つのクラス(このモデル)に注目し、3D情報の欠如が大きな問題であることを確認した。
オブジェクトの形状情報を既存のオブジェクトの特徴に統合するために,“Container”と“NotContainer”の違いを決定するために,最先端のオブジェクト検出モデルを微調整した。
論文 参考訳(メタデータ) (2024-09-19T21:23:44Z) - ICGNet: A Unified Approach for Instance-Centric Grasping [42.92991092305974]
オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを導入する。
提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価することにより示す。
論文 参考訳(メタデータ) (2024-01-18T12:41:41Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - An Object SLAM Framework for Association, Mapping, and High-Level Tasks [12.62957558651032]
本稿では,オブジェクト指向認識とオブジェクト指向ロボットタスクに焦点を当てた包括的オブジェクトSLAMフレームワークを提案する。
提案したオブジェクトSLAMフレームワークを効率よく評価するために,さまざまな公開データセットと実世界の結果が使用されている。
論文 参考訳(メタデータ) (2023-05-12T08:10:14Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Object-to-Scene: Learning to Transfer Object Knowledge to Indoor Scene
Recognition [19.503027767462605]
本研究では,オブジェクトの特徴を抽出し,オブジェクト関係を学習して屋内シーンを認識するオブジェクト・ツー・シーン(OTS)手法を提案する。
OTSは、新たなストリームを使わずに、室内のシーン認識において、最先端の手法を2%以上上回っている。
論文 参考訳(メタデータ) (2021-08-01T08:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。