論文の概要: Image Categorization and Search via a GAT Autoencoder and Representative Models
- arxiv url: http://arxiv.org/abs/2510.16514v1
- Date: Sat, 18 Oct 2025 14:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.02203
- Title: Image Categorization and Search via a GAT Autoencoder and Representative Models
- Title(参考訳): GATオートエンコーダと代表モデルによる画像分類と探索
- Authors: Duygu Sap, Martin Lotz, Connor Mattinson,
- Abstract要約: 本稿では,グラフとグラフアテンションネットワーク(GAT)に基づくオートエンコーダを利用した画像分類と検索手法を提案する。
我々のアプローチは代表中心であり、画像と画像カテゴリのために構築した代表モデルを通して分類と検索のプロセスを実行する。
我々は,GATオートエンコーダと標準機能ベース技術の両方を用いた実験を通じて,代表中心アプローチの有効性を示す。
- 参考スコア(独自算出の注目度): 0.254890465057467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method for image categorization and retrieval that leverages graphs and a graph attention network (GAT)-based autoencoder. Our approach is representative-centric, that is, we execute the categorization and retrieval process via the representative models we construct for the images and image categories. We utilize a graph where nodes represent images (or their representatives) and edges capture similarity relationships. GAT highlights important features and relationships between images, enabling the autoencoder to construct context-aware latent representations that capture the key features of each image relative to its neighbors. We obtain category representatives from these embeddings and categorize a query image by comparing its representative to the category representatives. We then retrieve the most similar image to the query image within its identified category. We demonstrate the effectiveness of our representative-centric approach through experiments with both the GAT autoencoders and standard feature-based techniques.
- Abstract(参考訳): 本稿では,グラフとグラフアテンションネットワーク(GAT)に基づくオートエンコーダを利用した画像分類と検索手法を提案する。
我々のアプローチは代表中心であり、画像と画像カテゴリのために構築した代表モデルを通して分類と検索のプロセスを実行する。
ノードが画像(またはその代表者)を表現し、エッジが類似関係をキャプチャするグラフを利用する。
GATは、画像間の重要な特徴と関係を強調し、オートエンコーダは、各画像の隣人に対して重要な特徴をキャプチャする、コンテキスト対応の潜在表現を構築することができる。
これらの埋め込みからカテゴリ代表を取得し、そのカテゴリ代表とカテゴリ代表とを比較してクエリ画像を分類する。
次に、識別されたカテゴリ内のクエリ画像に最もよく似た画像を検索する。
我々は,GATオートエンコーダと標準機能ベース技術の両方を用いた実験を通じて,代表中心アプローチの有効性を示す。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Category Query Learning for Human-Object Interaction Classification [25.979131884959923]
従来のHOI手法とは違って,カテゴリクエリ学習と呼ばれる新しい補完的手法を提案する。
このアイデアは、初期のマルチラベル画像分類法によって動機付けられているが、人間と物体の相互作用分類に挑戦するタスクに初めて適用されたものである。
提案手法は3つのHOIベースラインで検証され,2つのベンチマークで新たな最先端結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T13:59:58Z) - Not All Instances Contribute Equally: Instance-adaptive Class
Representation Learning for Few-Shot Visual Recognition [94.04041301504567]
少数ショットの視覚認識は、いくつかのラベル付きインスタンスから新しい視覚概念を認識することを指す。
本稿では,数ショットの視覚認識を実現するために,インスタンス適応型クラス表現学習ネットワーク(ICRL-Net)と呼ばれる新しいメトリックベースのメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:00:18Z) - Target-oriented Sentiment Classification with Sequential Cross-modal
Semantic Graph [27.77392307623526]
マルチモーダル・アスペクトベース感情分類(マルチモーダル・アスペクトベース感情分類、英: Multi-modal aspect-based sentiment classification、MABSC)は、文と画像に言及された対象エンティティの感情を分類するタスクである。
以前の手法では、画像とテキストの微妙なセマンティックな関連を考慮できなかった。
本稿では,シーケンシャルなクロスモーダルなセマンティックグラフを用いたエンコーダ・デコーダの感情分類フレームワークであるSeqCSGを提案する。
論文 参考訳(メタデータ) (2022-08-19T16:04:29Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Scene Graph Embeddings Using Relative Similarity Supervision [4.137464623395376]
グラフ畳み込みネットワークを用いて,シーングラフの構造を活用し,意味的画像検索に有用な画像埋め込みを生成する。
本稿では,類似画像と類似画像の対で動作し,それらの間の相対順序を埋め込み空間に課す新しい損失関数を提案する。
このランキング損失と直感的なトリプルサンプリング戦略が、検索タスクでよく知られたコントラスト損失を上回った堅牢な表現につながることを実証します。
論文 参考訳(メタデータ) (2021-04-06T09:13:05Z) - Multi-Modal Retrieval using Graph Neural Networks [1.8911962184174562]
我々は、同じ高次元空間に埋め込まれた共同ビジョンと概念を学ぶ。
視覚と概念の関係をグラフ構造としてモデル化する。
また、選択的近傍接続に基づく新しい推論時間制御も導入する。
論文 参考訳(メタデータ) (2020-10-04T19:34:20Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。