論文の概要: Object Placement for Anything
- arxiv url: http://arxiv.org/abs/2504.12029v1
- Date: Wed, 16 Apr 2025 12:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:28.042604
- Title: Object Placement for Anything
- Title(参考訳): 物の配置
- Authors: Bingjie Gao, Bo Zhang, Li Niu,
- Abstract要約: 大規模な未ラベルデータセットを活用できる半教師付きフレームワークを考案する。
我々のフレームワークは、識別対象配置モデルの一般化能力を効果的に向上させることができる。
- 参考スコア(独自算出の注目度): 19.2680034867269
- License:
- Abstract: Object placement aims to determine the appropriate placement (\emph{e.g.}, location and size) of a foreground object when placing it on the background image. Most previous works are limited by small-scale labeled dataset, which hinders the real-world application of object placement. In this work, we devise a semi-supervised framework which can exploit large-scale unlabeled dataset to promote the generalization ability of discriminative object placement models. The discriminative models predict the rationality label for each foreground placement given a foreground-background pair. To better leverage the labeled data, under the semi-supervised framework, we further propose to transfer the knowledge of rationality variation, \emph{i.e.}, whether the change of foreground placement would result in the change of rationality label, from labeled data to unlabeled data. Extensive experiments demonstrate that our framework can effectively enhance the generalization ability of discriminative object placement models.
- Abstract(参考訳): オブジェクト配置は、背景画像にそれを置く際に、前景オブジェクトの適切な配置(\emph{e g }, where and size)を決定することを目的としている。
これまでのほとんどの研究は、オブジェクト配置の現実的な応用を妨げる小さなラベル付きデータセットによって制限されている。
本研究では,識別対象配置モデルの一般化を促進するために,大規模未ラベルデータセットを活用可能な半教師付きフレームワークを考案する。
判別モデルは、前景と後景のペアが与えられた各前景配置の合理性ラベルを予測する。
ラベル付きデータをよりよく活用するために、半教師付きフレームワークの下では、前景の配置の変化がラベル付きデータからラベルなしデータへの合理性ラベルの変化をもたらすかどうかを、有理性変動の知識である「emph{i.e.}」を移すことも提案する。
大規模実験により,本フレームワークは識別対象配置モデルの一般化能力を効果的に向上できることが示された。
関連論文リスト
- AnyPlace: Learning Generalized Object Placement for Robot Manipulation [37.725807003481904]
合成データに基づく2段階の手法であるAnyPlaceを提案する。
私たちのキーとなる洞察は、ビジョン・ランゲージ・モデルを活用することで、ローカルな配置のために、関連する領域のみに焦点を当てるということです。
トレーニングのために、異なる配置構成でランダムに生成されたオブジェクトの完全な合成データセットを生成する。
実世界の実験では、我々の手法が純粋に訓練されたモデルを直接現実世界に転送する方法が示されている。
論文 参考訳(メタデータ) (2025-02-06T22:04:13Z) - Generative Location Modeling for Spatially Aware Object Insertion [35.62317512925592]
生成モデルは、オブジェクト挿入を含む画像編集タスクの強力なツールになっている。
本稿では,現実的な物体の位置を識別するための位置モデルの構築に焦点をあてる。
具体的には,背景画像と所望のオブジェクトクラスに条件付き境界ボックス座標を生成する自己回帰モデルを訓練する。
この定式化により、スパース配置アノテーションを効果的に処理し、直接選好最適化を行うことで、不明瞭な位置を選好データセットに組み込むことができる。
論文 参考訳(メタデータ) (2024-10-17T14:00:41Z) - Labeling Indoor Scenes with Fusion of Out-of-the-Box Perception Models [4.157013247909771]
ボトムアップセグメンテーション(SAM)、オブジェクト検出(Detic)、セマンティックセグメンテーション(MaskFormer)の最先端モデルを活用することを提案する。
室内環境におけるセマンティックセグメンテーションとオブジェクトインスタンス検出のための擬似ラベルを得るための,コスト効率の高いラベリング手法を開発することを目的とする。
提案手法の有効性を,Active VisionデータセットとADE20Kデータセットに示す。
論文 参考訳(メタデータ) (2023-11-17T21:58:26Z) - Inter-object Discriminative Graph Modeling for Indoor Scene Recognition [5.712940060321454]
本稿では,シーン特徴表現を強化するために,識別対象知識を活用することを提案する。
画素レベルのシーン特徴をノードとして定義する識別グラフネットワーク(DGN)を構築する。
提案した IODP と DGN を用いて, 広く使用されているシーンデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2023-11-10T08:07:16Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Knowledge Combination to Learn Rotated Detection Without Rotated
Annotation [53.439096583978504]
回転バウンディングボックスは、伸長したオブジェクトの出力あいまいさを劇的に減少させる。
この効果にもかかわらず、回転検出器は広く使われていない。
本稿では,モデルが正確な回転ボックスを予測できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T03:07:36Z) - SAILOR: Scaling Anchors via Insights into Latent Object Representation [5.96002531660335]
LiDARの3Dオブジェクト検出モデルは、必然的にトレーニングデータセットに偏っている。
オブジェクトのサイズは、例えば、異なるラベル付けポリシーや地理的位置のために、ドメイン間で大きく異なります。
オブジェクトサイズバイアスを克服するアンカーキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T13:40:46Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Towards Self-Supervised Category-Level Object Pose and Size Estimation [121.28537953301951]
本研究は,一深度画像からのカテゴリレベルのオブジェクトポーズとサイズ推定のための自己教師型フレームワークを提案する。
我々は、同じ形状の点雲における幾何学的整合性を利用して自己超越する。
論文 参考訳(メタデータ) (2022-03-06T06:02:30Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Object Detection with a Unified Label Space from Multiple Datasets [94.33205773893151]
異なるラベル空間を持つ複数のデータセットが与えられた場合、この研究の目標は、すべてのラベル空間の結合について予測する単一のオブジェクト検出器をトレーニングすることである。
あるデータセットにアノテートされているが、別のデータセットにアノテートされていない顔のようなオブジェクトカテゴリを考えてみましょう。
顔のようないくつかのカテゴリは、あるデータセットでは前景と見なされるが、別のデータセットでは背景と見なされる。
本稿では,部分的だが正しいアノテーションを補完的だがノイズの多い擬似ラベルと注意深く統合する損失関数を提案する。
論文 参考訳(メタデータ) (2020-08-15T00:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。