論文の概要: Through the PRISm: Importance-Aware Scene Graphs for Image Retrieval
- arxiv url: http://arxiv.org/abs/2512.18407v1
- Date: Sat, 20 Dec 2025 15:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.321633
- Title: Through the PRISm: Importance-Aware Scene Graphs for Image Retrieval
- Title(参考訳): PRISmを通して:画像検索のための重要視されるシーングラフ
- Authors: Dimitrios Georgoulopoulos, Nikolaos Chaidos, Angeliki Dimitriou, Giorgos Stamou,
- Abstract要約: PRISmは2つの新しいコンポーネントを通して画像と画像の検索を促進するマルチモーダルフレームワークである。
Importance Prediction Moduleは、イメージ内で最も重要なオブジェクトとリレーショナルトリガを特定し、保持する。
Edge-Aware Graph Neural Networkは、リレーショナル構造を明示的にエンコードし、グローバルな視覚的特徴を統合して、セマンティックなインフォメーション画像の埋め込みを生成する。
- 参考スコア(独自算出の注目度): 6.804414686833417
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurately retrieving images that are semantically similar remains a fundamental challenge in computer vision, as traditional methods often fail to capture the relational and contextual nuances of a scene. We introduce PRISm (Pruning-based Image Retrieval via Importance Prediction on Semantic Graphs), a multimodal framework that advances image-to-image retrieval through two novel components. First, the Importance Prediction Module identifies and retains the most critical objects and relational triplets within an image while pruning irrelevant elements. Second, the Edge-Aware Graph Neural Network explicitly encodes relational structure and integrates global visual features to produce semantically informed image embeddings. PRISm achieves image retrieval that closely aligns with human perception by explicitly modeling the semantic importance of objects and their interactions, capabilities largely absent in prior approaches. Its architecture effectively combines relational reasoning with visual representation, enabling semantically grounded retrieval. Extensive experiments on benchmark and real-world datasets demonstrate consistently superior top-ranked performance, while qualitative analyses show that PRISm accurately captures key objects and interactions, producing interpretable and semantically meaningful results.
- Abstract(参考訳): 意味的に類似した正確な画像を取得することは、伝統的な手法がシーンのリレーショナルなニュアンスや文脈的なニュアンスを捉えるのに失敗するので、コンピュータビジョンにおける根本的な課題である。
PRISm(Pruning-based Image Retrieval via Importance Prediction on Semantic Graphs)は、2つの新しいコンポーネントを通して画像と画像の検索を促進するマルチモーダルフレームワークである。
第一に、Importance Prediction Moduleは、無関係な要素を解析しながら、画像内で最も重要なオブジェクトとリレーショナルトリガを特定し、保持する。
第2に、Edge-Aware Graph Neural Networkは、リレーショナル構造を明示的にエンコードし、グローバルな視覚的特徴を統合して、セマンティックなインフォメーション画像の埋め込みを生成する。
PRISmは、オブジェクトの意味的重要性とその相互作用を明示的にモデル化することで、人間の知覚と密接に一致した画像検索を実現する。
そのアーキテクチャは、リレーショナル推論と視覚表現を効果的に組み合わせ、セマンティックグラウンドド検索を可能にする。
ベンチマークと実世界のデータセットに関する大規模な実験は、常に優れたトップランクのパフォーマンスを示し、質的な分析は、PRISmが重要なオブジェクトと相互作用を正確にキャプチャし、解釈可能で意味のある結果をもたらすことを示している。
関連論文リスト
- Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval [8.855547063009828]
本稿では、画像文検索のためのCMSEIと呼ばれるクロスモーダル・セマンティック・エンハンスメント・インタラクション手法を提案する。
まず、オブジェクトの意味表現を強化するために、モーダル内およびモーダル間空間および意味グラフに基づく推論を設計する。
オブジェクトのコンテキストとテキストのコンテキストを関連付けるために,クロスレベルなオブジェクト文と単語画像に基づく対話的注意による視覚的意味表現をさらに洗練する。
論文 参考訳(メタデータ) (2022-10-17T10:01:16Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。