論文の概要: Visual Jenga: Discovering Object Dependencies via Counterfactual Inpainting
- arxiv url: http://arxiv.org/abs/2503.21770v1
- Date: Thu, 27 Mar 2025 17:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:16.541968
- Title: Visual Jenga: Discovering Object Dependencies via Counterfactual Inpainting
- Title(参考訳): Visual Jenga: 対実的インペインティングによるオブジェクト依存の発見
- Authors: Anand Bhattad, Konpat Preechakul, Alexei A. Efros,
- Abstract要約: 視覚ジェンガと呼ばれるシーン理解タスクを提案する。
提案したタスクは、背景だけが残るまで、単一のイメージからオブジェクトを段階的に削除することである。
実世界のさまざまな画像に対して驚くほど効果的である,データ駆動型トレーニングフリーなアプローチを提案する。
- 参考スコア(独自算出の注目度): 35.64886156217563
- License:
- Abstract: This paper proposes a novel scene understanding task called Visual Jenga. Drawing inspiration from the game Jenga, the proposed task involves progressively removing objects from a single image until only the background remains. Just as Jenga players must understand structural dependencies to maintain tower stability, our task reveals the intrinsic relationships between scene elements by systematically exploring which objects can be removed while preserving scene coherence in both physical and geometric sense. As a starting point for tackling the Visual Jenga task, we propose a simple, data-driven, training-free approach that is surprisingly effective on a range of real-world images. The principle behind our approach is to utilize the asymmetry in the pairwise relationships between objects within a scene and employ a large inpainting model to generate a set of counterfactuals to quantify the asymmetry.
- Abstract(参考訳): 本稿では,視覚ジェンガと呼ばれるシーン理解タスクを提案する。
ゲームJengaからインスピレーションを得たこのタスクでは、背景だけが残るまで、単一のイメージからオブジェクトを段階的に削除する。
Jengaプレーヤーが塔の安定性を維持するために構造的依存関係を理解する必要があるのと同じように、我々のタスクは、物理的・幾何学的な意味でシーンコヒーレンスを保ちながら、どのオブジェクトを除去できるかを体系的に探索することで、シーン要素間の本質的な関係を明らかにする。
Visual Jengaタスクに取り組むための出発点として、実世界のさまざまな画像に対して驚くほど効果的である、単純でデータ駆動型のトレーニングなしのアプローチを提案する。
このアプローチの背後にある原則は、シーン内のオブジェクト間の対関係における非対称性を利用し、大きな塗装モデルを用いて、非対称性を定量化するための反事実の集合を生成することである。
関連論文リスト
- GroundingBooth: Grounding Text-to-Image Customization [17.185571339157075]
GroundingBoothは、前景と背景オブジェクトの両方にゼロショット、インスタンスレベルの空間的グラウンドを実現する。
提案するグラウンドモジュールと主観的なクロスアテンション層は、パーソナライズされた画像の作成を可能にする。
論文 参考訳(メタデータ) (2024-09-13T03:40:58Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - LayoutBERT: Masked Language Layout Model for Object Insertion [3.4806267677524896]
本稿では,オブジェクト挿入タスクのためのレイアウトBERTを提案する。
これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。
各種ドメインからのデータセットの質的および定量的評価を行う。
論文 参考訳(メタデータ) (2022-04-30T21:35:38Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - DemoGrasp: Few-Shot Learning for Robotic Grasping with Human
Demonstration [42.19014385637538]
本稿では,ロボットに対して,単純で短い人間の実演で物体をつかむ方法を教えることを提案する。
まず、人間と物体の相互作用を示すRGB-D画像の小さなシーケンスを提示する。
このシーケンスを使用して、インタラクションを表す手とオブジェクトメッシュを構築する。
論文 参考訳(メタデータ) (2021-12-06T08:17:12Z) - Learning to Compose Visual Relations [100.45138490076866]
我々は,各関係を非正規化密度(エネルギーベースモデル)として表現することを提案する。
このような分解を分解することで、複数の関係を持つシーンをより忠実に生成・編集できることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:51:29Z) - Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。
本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文 参考訳(メタデータ) (2021-04-12T11:37:23Z) - Exploiting Relationship for Complex-scene Image Generation [43.022978211274065]
本研究では,複数のオブジェクトをシーングラフとして関連づける関係認識型複素画像生成について考察する。
生成フレームワークに3つの大きなアップデートを提案する。
第一に、合理的な空間レイアウトは、オブジェクト間の意味と関係を共同で考慮することで推測される。
第2に,オブジェクト間の関係がオブジェクトの外観に大きく影響するため,オブジェクト間の関係を反映するオブジェクトを生成するための関係誘導ジェネレータを設計する。
第3に,生成画像と入力シーングラフの一貫性を保証するため,新たなシーングラフ判別器を提案する。
論文 参考訳(メタデータ) (2021-04-01T09:21:39Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。