論文の概要: Room Scene Discovery and Grouping in Unstructured Vacation Rental Image Collections
- arxiv url: http://arxiv.org/abs/2507.00263v1
- Date: Mon, 30 Jun 2025 21:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.853744
- Title: Room Scene Discovery and Grouping in Unstructured Vacation Rental Image Collections
- Title(参考訳): 非構造空洞レンタル画像集におけるルームシーンの発見とグループ化
- Authors: Vignesh Ram Nithin Kappagantula, Shayan Hassantabar,
- Abstract要約: 休暇用レンタルプラットフォームが急速に成長し、資産イメージの量が増加し、しばしば階層化せずにアップロードされている。
部屋のシーン発見とグループ化の問題を解決するための効果的なアプローチを導入するとともに,各ベッドグループ内のベッドタイプを特定する。
本稿では,低レイテンシと,サンプル効率の学習で効果的に実行できることを特徴とする,計算効率のよい機械学習パイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of vacation rental (VR) platforms has led to an increasing volume of property images, often uploaded without structured categorization. This lack of organization poses significant challenges for travelers attempting to understand the spatial layout of a property, particularly when multiple rooms of the same type are present. To address this issue, we introduce an effective approach for solving the room scene discovery and grouping problem, as well as identifying bed types within each bedroom group. This grouping is valuable for travelers to comprehend the spatial organization, layout, and the sleeping configuration of the property. We propose a computationally efficient machine learning pipeline characterized by low latency and the ability to perform effectively with sample-efficient learning, making it well-suited for real-time and data-scarce environments. The pipeline integrates a supervised room-type detection model, a supervised overlap detection model to identify the overlap similarity between two images, and a clustering algorithm to group the images of the same space together using the similarity scores. Additionally, the pipeline maps each bedroom group to the corresponding bed types specified in the property's metadata, based on the visual content present in the group's images using a Multi-modal Large Language Model (MLLM) model. We evaluate the aforementioned models individually and also assess the pipeline in its entirety, observing strong performance that significantly outperforms established approaches such as contrastive learning and clustering with pretrained embeddings.
- Abstract(参考訳): 休暇用レンタルプラットフォーム(VR)の急速な成長は、しばしば構造化された分類なしでアップロードされる不動産画像の量の増加につながった。
この組織的欠如は、特に同じタイプの複数の部屋が存在する場合、資産の空間的レイアウトを理解しようとする旅行者にとって大きな課題となる。
この問題に対処するために,部屋のシーン発見とグループ化の問題を解決するための効果的なアプローチを導入するとともに,各寝室グループ内のベッドタイプを特定する。
このグループ化は、旅行者が資産の空間的構造、レイアウト、睡眠状態を理解するのに有用である。
本稿では,低レイテンシと,サンプル効率の学習を効果的に行う能力に特徴付けられる計算効率のよい機械学習パイプラインを提案する。
このパイプラインは、2つの画像間の重なり合う類似性を識別するための教師付き部屋型検出モデルと、類似度スコアを用いて同一空間の画像をグループ化するクラスタリングアルゴリズムとを統合する。
さらに、パイプラインは、マルチモーダル大言語モデル(MLLM)モデルを用いて、そのグループの画像に存在する視覚的内容に基づいて、各寝室群を、資産のメタデータで指定された対応するベッドタイプにマッピングする。
上記のモデルを個別に評価し、パイプライン全体を評価するとともに、コントラスト学習やクラスタリングなどの確立したアプローチを事前学習で大幅に上回る、強力な性能を観察する。
関連論文リスト
- Graph Cut-guided Maximal Coding Rate Reduction for Learning Image Embedding and Clustering [2.4503870408262354]
本稿では,構造化埋め込みとクラスタリングを共同で学習するための統合フレームワーク,CgMCR(Cut-guided Maximal Coding Rate Reduction)を提案する。
我々は、標準画像データセットと外部画像データセットの両方について広範な実験を行い、提案手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-12-25T15:20:54Z) - Discriminative Anchor Learning for Efficient Multi-view Clustering [59.11406089896875]
マルチビュークラスタリング(DALMC)のための識別的アンカー学習を提案する。
元のデータセットに基づいて、識別的なビュー固有の特徴表現を学習する。
これらの表現に基づいて異なるビューからアンカーを構築することで、共有アンカーグラフの品質が向上します。
論文 参考訳(メタデータ) (2024-09-25T13:11:17Z) - Hierarchical Multi-Label Classification with Missing Information for Benthic Habitat Imagery [1.6492989697868894]
複数のレベルのアノテーション情報が存在するシナリオでHMLトレーニングを行う能力を示す。
その結果,局所的・局所的なベントニック・サイエンス・プロジェクトで典型的な,より小さなワンホット・イメージ・ラベル・データセットを使用する場合,イメージネット上で事前学習したドメイン内ベントニック・データの大規模な収集に対して,自己スーパービジョンで事前学習したモデルの方が優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-10T16:15:01Z) - Anchor-based Multi-view Subspace Clustering with Hierarchical Feature Descent [46.86939432189035]
階層的特徴Descentを用いたアンカーベースマルチビューサブスペースクラスタリングを提案する。
提案手法は最先端技術より一貫して優れている。
論文 参考訳(メタデータ) (2023-10-11T03:29:13Z) - Global and Local Features through Gaussian Mixture Models on Image
Semantic Segmentation [0.38073142980732994]
本稿では,前者をサポートするグローバル表現を抽出しながら特徴表現の内部構造を提案する。
トレーニング中、データからガウス混合モデルを予測し、スキップ接続と復号ステージにマージすることで、誤った帰納バイアスを回避する。
この結果から,クラスタリングの動作を学習表現(言語とローカル)と組み合わせることで,セマンティックセマンティックセマンティクスを向上できることが示唆された。
論文 参考訳(メタデータ) (2022-07-19T10:10:49Z) - The Group Loss++: A deeper look into group loss for deep metric learning [65.19665861268574]
グループ損失 (Group Loss) は、グループの全サンプルに埋め込まれた類似性を強制する微分可能なラベルプロパゲーション法に基づく損失関数である。
4つのデータセットでクラスタリングと画像検索の最先端結果を示し、2人の再識別データセットで競合結果を示す。
論文 参考訳(メタデータ) (2022-04-04T14:09:58Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Multi-layer Feature Aggregation for Deep Scene Parsing Models [19.198074549944568]
本稿では,深層解析ネットワークにおける多層特徴出力の空間-意味的整合性に対する有効利用について検討する。
提案モジュールは、空間情報と意味情報を相関付けるために、中間視覚特徴を自動選択することができる。
4つの公開シーン解析データセットの実験により、提案した機能集約モジュールを備えたディープパーシングネットワークは、非常に有望な結果が得られることが証明された。
論文 参考訳(メタデータ) (2020-11-04T23:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。