論文の概要: Learning cross space mapping via DNN using large scale click-through
logs
- arxiv url: http://arxiv.org/abs/2302.13275v1
- Date: Sun, 26 Feb 2023 09:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 18:05:15.194039
- Title: Learning cross space mapping via DNN using large scale click-through
logs
- Title(参考訳): 大規模クリックスルーログを用いたDNNによるクロススペースマッピングの学習
- Authors: Wei Yu, Kuiyuan Yang, Yalong Bai, Hongxun Yao, Yong Rui
- Abstract要約: 低レベルの視覚信号と高レベルのセマンティクスのギャップは、ディープニューラルネットワーク(DNN)の継続的な開発によって徐々に橋渡しされている。
1つのネットワークにおける画像とクエリを同時にモデル化し、画像-クエリ類似度計算のための統合DNNモデルを提案する。
1000のクエリによる画像検索評価タスクにおける定性的な結果と定量的な結果の両方が,提案手法の優位性を示している。
- 参考スコア(独自算出の注目度): 38.94796244812248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The gap between low-level visual signals and high-level semantics has been
progressively bridged by continuous development of deep neural network (DNN).
With recent progress of DNN, almost all image classification tasks have
achieved new records of accuracy. To extend the ability of DNN to image
retrieval tasks, we proposed a unified DNN model for image-query similarity
calculation by simultaneously modeling image and query in one network. The
unified DNN is named the cross space mapping (CSM) model, which contains two
parts, a convolutional part and a query-embedding part. The image and query are
mapped to a common vector space via these two parts respectively, and
image-query similarity is naturally defined as an inner product of their
mappings in the space. To ensure good generalization ability of the DNN, we
learn weights of the DNN from a large number of click-through logs which
consists of 23 million clicked image-query pairs between 1 million images and
11.7 million queries. Both the qualitative results and quantitative results on
an image retrieval evaluation task with 1000 queries demonstrate the
superiority of the proposed method.
- Abstract(参考訳): 低レベルの視覚信号と高レベルのセマンティクスのギャップは、ディープニューラルネットワーク(DNN)の継続的な開発によって徐々に橋渡しされている。
DNNの最近の進歩により、画像分類タスクのほとんど全てが新しい精度の記録を達成した。
画像検索タスクにおけるDNNの能力を拡張するため,1つのネットワークにおける画像とクエリを同時にモデル化し,画像-クエリ類似度計算のための統合DNNモデルを提案する。
統合DNNは、畳み込み部とクエリ埋め込み部という2つの部分を含むクロススペースマッピング(CSM)モデルと呼ばれる。
画像とクエリはそれぞれ2つの部分を通して共通ベクトル空間にマッピングされ、画像とクエリの類似性は空間内のマッピングの内積として自然に定義される。
DNNの適切な一般化能力を確保するため、100万の画像と170万のクエリの間に2300万のクリックされた画像クエリ対からなる多数のクリックスルーログからDNNの重みを学習する。
1000クエリによる画像検索評価タスクの質的結果と定量的結果の両方が,提案手法の優位性を示している。
関連論文リスト
- Architecturing Binarized Neural Networks for Traffic Sign Recognition [0.0]
バイナリニューラルネットワーク(BNN)は、計算に制限された、エネルギーに制約のあるデバイスにおいて、有望な結果を示している。
我々はドイツ交通信号認識ベンチマーク(GTSRB)の90%以上を達成できるBNNアーキテクチャを提案する。
これらのアーキテクチャのパラメータの数は100kから2M未満まで様々である。
論文 参考訳(メタデータ) (2023-03-27T08:46:31Z) - A Domain Decomposition-Based CNN-DNN Architecture for Model Parallel
Training Applied to Image Recognition Problems [0.0]
モデル並列トレーニング戦略を自然にサポートする新しいCNN-DNNアーキテクチャを提案する。
提案手法は,グローバルモデルと比較して,必要なトレーニング時間を著しく短縮することができる。
その結果,提案手法は,基礎となる分類問題の精度向上にも有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-13T18:06:59Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Frequency learning for image classification [1.9336815376402716]
本稿では、トレーニング可能な周波数フィルタからなる入力画像のフーリエ変換を探索する新しい手法を提案する。
画像ブロックの周波数領域表現からグローバル特徴とローカル特徴の両方を学習するスライシング手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T00:32:47Z) - When CNNs Meet Random RNNs: Towards Multi-Level Analysis for RGB-D
Object and Scene Recognition [10.796613905980609]
オブジェクトおよびシーン認識タスクのための多モードRGB-D画像から識別的特徴表現を抽出する新しいフレームワークを提案する。
CNNアクティベーションの高次元性に対応するため、ランダムな重み付けプール方式が提案されている。
実験では、RNNステージにおける完全ランダム化構造がCNNアクティベーションを符号化し、識別的ソリッドな特徴を成功させることを確認した。
論文 参考訳(メタデータ) (2020-04-26T10:58:27Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z) - R-FCN: Object Detection via Region-based Fully Convolutional Networks [87.62557357527861]
我々は,高精度かつ効率的な物体検出のための領域ベースの完全畳み込みネットワークを提案する。
我々の結果は、Faster R-CNNよりも2.5-20倍高速で、1画像あたり170msのテストタイムで達成される。
論文 参考訳(メタデータ) (2016-05-20T15:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。