論文の概要: GraPLUS: Graph-based Placement Using Semantics for Image Composition
- arxiv url: http://arxiv.org/abs/2503.15761v1
- Date: Thu, 20 Mar 2025 00:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:14.774420
- Title: GraPLUS: Graph-based Placement Using Semantics for Image Composition
- Title(参考訳): GraPLUS: 画像合成のためのセマンティックスを用いたグラフベースの配置
- Authors: Mir Mohammad Khaleghi, Mehran Safayani, Abdolreza Mirzaei,
- Abstract要約: 本稿では,画像中のプラプティブルなオブジェクト配置のための新しいフレームワークであるGraPLUS(Graph-based Placement Using Semantics)を提案する。
本手法は,文脈的に適切な対象位置を決定するために,グラフ構造化シーン表現と意味理解を一意に結合する。
GraPLUSの配置精度は92.1%、FIDスコアは28.83であり、競合する視覚的品質を維持しつつ、最先端の手法を8.1%上回っている。
- 参考スコア(独自算出の注目度): 3.0450307343472405
- License:
- Abstract: We present GraPLUS (Graph-based Placement Using Semantics), a novel framework for plausible object placement in images that leverages scene graphs and large language models. Our approach uniquely combines graph-structured scene representation with semantic understanding to determine contextually appropriate object positions. The framework employs GPT-2 to transform categorical node and edge labels into rich semantic embeddings that capture both definitional characteristics and typical spatial contexts, enabling nuanced understanding of object relationships and placement patterns. GraPLUS achieves placement accuracy of 92.1% and an FID score of 28.83 on the OPA dataset, outperforming state-of-the-art methods by 8.1% while maintaining competitive visual quality. In human evaluation studies involving 964 samples assessed by 19 participants, our method was preferred in 52.1% of cases, significantly outperforming previous approaches. The framework's key innovations include: (i) leveraging pre-trained scene graph models that transfer knowledge from other domains, (ii) edge-aware graph neural networks that process scene semantics through structured relationships, (iii) a cross-modal attention mechanism that aligns categorical embeddings with enhanced scene features, and (iv) a multiobjective training strategy incorporating semantic consistency constraints.
- Abstract(参考訳): 本研究では,シーングラフと大規模言語モデルを活用した画像中の可視オブジェクト配置のための新しいフレームワークであるGraPLUS(グラフベースプレイスメント・オン・セマンティックス)を提案する。
本手法は,文脈的に適切な対象位置を決定するために,グラフ構造化シーン表現と意味理解を一意に結合する。
このフレームワークは、GPT-2を用いて分類ノードとエッジラベルをリッチなセマンティック埋め込みに変換し、定義特性と典型的な空間コンテキストの両方をキャプチャし、オブジェクトの関係や配置パターンの微妙な理解を可能にする。
GraPLUSは、OPAデータセット上の92.1%の配置精度と28.83のFIDスコアを達成し、競争力のある視覚的品質を維持しながら、最先端の手法を8.1%上回っている。
被験者19名による964例を対象とした人体評価では,52.1%の症例で提案法が好まれ,従来よりも有意に優れていた。
フレームワークの主なイノベーションは以下のとおりである。
(i)他のドメインから知識を伝達する事前訓練されたシーングラフモデルを活用する。
(II)構造的関係を通してシーンセマンティクスを処理するエッジ対応グラフニューラルネットワーク
三 シーンの特徴の強化と分類的埋め込みを整合させる横断的注意機構
(4)意味的一貫性の制約を取り入れた多目的学習戦略。
関連論文リスト
- Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Structure Your Data: Towards Semantic Graph Counterfactuals [1.8817715864806608]
概念に基づく対実的説明(CE)は、モデル予測にどの高レベルな意味的特徴が寄与するかを理解するための代替シナリオを考える説明である。
本研究では,入力データに付随する意味グラフに基づくCEを提案する。
論文 参考訳(メタデータ) (2024-03-11T08:40:37Z) - Less is More: Toward Zero-Shot Local Scene Graph Generation via
Foundation Models [16.08214739525615]
ローカルシーングラフ生成という新しいタスクを提案する。
部分的オブジェクトとそれらの関係をイメージとして、関連する構造情報を抽象化することを目的としている。
我々は,zEro-shot Local scEne GrAph geNeraTion (ELEGANT)を紹介した。
論文 参考訳(メタデータ) (2023-10-02T17:19:04Z) - Learning High-level Semantic-Relational Concepts for SLAM [10.528810470934781]
低レベル因子グラフから推定できる高レベル意味関連概念を学習するためのアルゴリズムを提案する。
提案手法をシミュレーションと実データの両方で検証し, 2つのベースラインアプローチによる性能向上を実証した。
論文 参考訳(メタデータ) (2023-09-30T14:54:31Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - GPGait: Generalized Pose-based Gait Recognition [11.316545213493223]
ポーズに基づく歩行認識に関する最近の研究は、このような単純な情報を用いてシルエット法に匹敵する結果が得られる可能性を実証している。
データセット間のポーズに基づく手法の一般化能力を向上させるために,textbf Generalized textbfPose-based textbfGait Recognition frameworkを提案する。
論文 参考訳(メタデータ) (2023-03-09T13:17:13Z) - Attention-Guided Supervised Contrastive Learning for Semantic
Segmentation [16.729068267453897]
画素ごとの予測タスクでは、セグメンテーションのために1つのイメージに複数のラベルが存在する可能性がある。
本研究では,1つの意味的対象を目標として毎回強調する,注意誘導型教師付きコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-03T05:01:11Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Grounded Situation Recognition [56.18102368133022]
画像の構造的要約を生成することを必要とする課題であるグラウンドドコンディション認識(GSR)を導入する。
GSRはセマンティック・サリエンシの識別、大規模で多様なエンティティの分類とローカライズという重要な技術的課題を提示している。
我々は,条件付きクエリ,視覚連鎖,接地型セマンティック・アウェアネス・イメージ検索の3つのモデルによって実現される3つの将来方向について,最初の知見を示す。
論文 参考訳(メタデータ) (2020-03-26T17:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。