論文の概要: SCENIR: Visual Semantic Clarity through Unsupervised Scene Graph Retrieval
- arxiv url: http://arxiv.org/abs/2505.15867v1
- Date: Wed, 21 May 2025 11:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.826242
- Title: SCENIR: Visual Semantic Clarity through Unsupervised Scene Graph Retrieval
- Title(参考訳): SCENIR: 教師なしのシーングラフ検索による視覚的意味的明瞭度
- Authors: Nikolaos Chaidos, Angeliki Dimitriou, Maria Lymperaiou, Giorgos Stamou,
- Abstract要約: 本稿では,グラフオートエンコーダに基づく教師なし検索フレームワークSCENIRを提案する。
提案モデルは,既存のビジョンベース,マルチモーダル,教師付きGNNアプローチよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 1.51422963961219
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the dominance of convolutional and transformer-based architectures in image-to-image retrieval, these models are prone to biases arising from low-level visual features, such as color. Recognizing the lack of semantic understanding as a key limitation, we propose a novel scene graph-based retrieval framework that emphasizes semantic content over superficial image characteristics. Prior approaches to scene graph retrieval predominantly rely on supervised Graph Neural Networks (GNNs), which require ground truth graph pairs driven from image captions. However, the inconsistency of caption-based supervision stemming from variable text encodings undermine retrieval reliability. To address these, we present SCENIR, a Graph Autoencoder-based unsupervised retrieval framework, which eliminates the dependence on labeled training data. Our model demonstrates superior performance across metrics and runtime efficiency, outperforming existing vision-based, multimodal, and supervised GNN approaches. We further advocate for Graph Edit Distance (GED) as a deterministic and robust ground truth measure for scene graph similarity, replacing the inconsistent caption-based alternatives for the first time in image-to-image retrieval evaluation. Finally, we validate the generalizability of our method by applying it to unannotated datasets via automated scene graph generation, while substantially contributing in advancing state-of-the-art in counterfactual image retrieval.
- Abstract(参考訳): イメージ・ツー・イメージ検索における畳み込みとトランスフォーマー・ベースのアーキテクチャの優位性にもかかわらず、これらのモデルは色のような低レベルの視覚的特徴から生じるバイアスの傾向にある。
セマンティック理解の欠如を鍵となる制約として認識し,表面的特徴よりもセマンティックコンテンツを重視したシーングラフに基づく検索フレームワークを提案する。
シーングラフ検索への以前のアプローチは、主にイメージキャプションから駆動される基底真理グラフペアを必要とする教師付きグラフニューラルネットワーク(GNN)に依存していた。
しかし、可変テキストエンコーディングによるキャプションベースの監督の不整合は、検索の信頼性を損なう。
そこで本稿では,グラフオートエンコーダをベースとした教師なし検索フレームワークであるSCENIRについて述べる。
提案モデルは,既存のビジョンベース,マルチモーダル,教師付きGNNアプローチよりも優れた性能を示す。
さらに,図形編集距離(GED)をシーングラフ類似性に対する決定論的かつ堅牢な基底真理尺度として提唱し,画像と画像の検索評価において,一貫性のないキャプションベースの代替品を初めて置き換えた。
最後に、自動シーングラフ生成による無注釈データセットに適用することにより、本手法の一般化性を検証し、反実画像検索における最先端の進歩に大きく貢献する。
関連論文リスト
- i-WiViG: Interpretable Window Vision GNN [20.781355086144814]
グラフベース視覚モデルの自己解釈可能性には,Interpretable Window Vision GNN (i-WiViG) アプローチを提案する。
これは、ノードの受信フィールドを局所的な画像領域に制限するウィンドウベースの画像グラフ処理によって達成される。
我々は,リモートセンシングの分類と回帰タスクに対するアプローチを評価し,競争性能を示す。
論文 参考訳(メタデータ) (2025-03-11T11:31:40Z) - SelfGraphVQA: A Self-Supervised Graph Neural Network for Scene-based
Question Answering [0.0]
シーングラフはマルチモーダル画像解析の有用なツールとして登場した。
理想化されたアノテートシーングラフを利用する現在の手法は、画像から抽出された予測シーングラフを使用する場合、一般化に苦慮している。
本稿では,事前学習したシーングラフ生成器を用いて,入力画像からシーングラフを抽出する。
論文 参考訳(メタデータ) (2023-10-03T07:14:53Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Image-Graph-Image Translation via Auto-Encoding [4.847617604851614]
この研究は、外部の監視を必要とせず、画像から画像への変換タスクを学習する最初の畳み込みニューラルネットワークを示す。
私たちは、ボトルネックがグラフのノードとエッジをエンコードする、完全に異なる自動エンコーダに基づいた自己監視アプローチを初めて提示しました。
論文 参考訳(メタデータ) (2020-12-10T21:01:32Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Graph Edit Distance Reward: Learning to Edit Scene Graph [69.39048809061714]
本研究では,これまで検討されていないユーザ指示に従ってシーングラフを編集する手法を提案する。
具体的には,テキストから得られるセマンティクスとしてシーングラフの編集を学習するために,グラフ編集距離再帰(Graph Edit Distance Reward)を提案する。
テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-08-15T04:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。