論文の概要: Learning cross space mapping via DNN using large scale click-through
logs
- arxiv url: http://arxiv.org/abs/2302.13275v1
- Date: Sun, 26 Feb 2023 09:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 18:05:15.194039
- Title: Learning cross space mapping via DNN using large scale click-through
logs
- Title(参考訳): 大規模クリックスルーログを用いたDNNによるクロススペースマッピングの学習
- Authors: Wei Yu, Kuiyuan Yang, Yalong Bai, Hongxun Yao, Yong Rui
- Abstract要約: 低レベルの視覚信号と高レベルのセマンティクスのギャップは、ディープニューラルネットワーク(DNN)の継続的な開発によって徐々に橋渡しされている。
1つのネットワークにおける画像とクエリを同時にモデル化し、画像-クエリ類似度計算のための統合DNNモデルを提案する。
1000のクエリによる画像検索評価タスクにおける定性的な結果と定量的な結果の両方が,提案手法の優位性を示している。
- 参考スコア(独自算出の注目度): 38.94796244812248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The gap between low-level visual signals and high-level semantics has been
progressively bridged by continuous development of deep neural network (DNN).
With recent progress of DNN, almost all image classification tasks have
achieved new records of accuracy. To extend the ability of DNN to image
retrieval tasks, we proposed a unified DNN model for image-query similarity
calculation by simultaneously modeling image and query in one network. The
unified DNN is named the cross space mapping (CSM) model, which contains two
parts, a convolutional part and a query-embedding part. The image and query are
mapped to a common vector space via these two parts respectively, and
image-query similarity is naturally defined as an inner product of their
mappings in the space. To ensure good generalization ability of the DNN, we
learn weights of the DNN from a large number of click-through logs which
consists of 23 million clicked image-query pairs between 1 million images and
11.7 million queries. Both the qualitative results and quantitative results on
an image retrieval evaluation task with 1000 queries demonstrate the
superiority of the proposed method.
- Abstract(参考訳): 低レベルの視覚信号と高レベルのセマンティクスのギャップは、ディープニューラルネットワーク(DNN)の継続的な開発によって徐々に橋渡しされている。
DNNの最近の進歩により、画像分類タスクのほとんど全てが新しい精度の記録を達成した。
画像検索タスクにおけるDNNの能力を拡張するため,1つのネットワークにおける画像とクエリを同時にモデル化し,画像-クエリ類似度計算のための統合DNNモデルを提案する。
統合DNNは、畳み込み部とクエリ埋め込み部という2つの部分を含むクロススペースマッピング(CSM)モデルと呼ばれる。
画像とクエリはそれぞれ2つの部分を通して共通ベクトル空間にマッピングされ、画像とクエリの類似性は空間内のマッピングの内積として自然に定義される。
DNNの適切な一般化能力を確保するため、100万の画像と170万のクエリの間に2300万のクリックされた画像クエリ対からなる多数のクリックスルーログからDNNの重みを学習する。
1000クエリによる画像検索評価タスクの質的結果と定量的結果の両方が,提案手法の優位性を示している。
関連論文リスト
- Recurrent Neural Networks for Still Images [0.0]
我々は、RNNが静止画をシーケンスとして解釈することで効果的に処理できることを論じる。
本稿では、画像などの2次元入力に適した新しいRNN設計と、従来の実装よりもメモリ効率が高いBiDirectional RNN(BiRNN)のカスタムバージョンを紹介する。
論文 参考訳(メタデータ) (2024-09-10T06:07:20Z) - NAS-BNN: Neural Architecture Search for Binary Neural Networks [55.058512316210056]
我々は、NAS-BNNと呼ばれる二元ニューラルネットワークのための新しいニューラルネットワーク探索手法を提案する。
我々の発見したバイナリモデルファミリーは、20Mから2Mまでの幅広い操作(OP)において、以前のBNNよりも優れていた。
さらに,対象検出タスクにおける探索されたBNNの転送可能性を検証するとともに,探索されたBNNを用いたバイナリ検出器は,MSデータセット上で31.6% mAP,370万 OPsなどの新たな最先端結果を得る。
論文 参考訳(メタデータ) (2024-08-28T02:17:58Z) - CNN2GNN: How to Bridge CNN with GNN [59.42117676779735]
蒸留によりCNNとGNNを統一する新しいCNN2GNNフレームワークを提案する。
Mini-ImageNetにおける蒸留ブースターの2層GNNの性能は、ResNet152のような数十層を含むCNNよりもはるかに高い。
論文 参考訳(メタデータ) (2024-04-23T08:19:08Z) - Architecturing Binarized Neural Networks for Traffic Sign Recognition [0.0]
バイナリニューラルネットワーク(BNN)は、計算に制限された、エネルギーに制約のあるデバイスにおいて、有望な結果を示している。
我々はドイツ交通信号認識ベンチマーク(GTSRB)の90%以上を達成できるBNNアーキテクチャを提案する。
これらのアーキテクチャのパラメータの数は100kから2M未満まで様々である。
論文 参考訳(メタデータ) (2023-03-27T08:46:31Z) - Neural Implicit Dictionary via Mixture-of-Expert Training [111.08941206369508]
ニューラルインシシット辞書(NID)を学習することで、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。
我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのImpworksのグループを組み立てる。
実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-08T05:07:19Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Frequency learning for image classification [1.9336815376402716]
本稿では、トレーニング可能な周波数フィルタからなる入力画像のフーリエ変換を探索する新しい手法を提案する。
画像ブロックの周波数領域表現からグローバル特徴とローカル特徴の両方を学習するスライシング手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T00:32:47Z) - When CNNs Meet Random RNNs: Towards Multi-Level Analysis for RGB-D
Object and Scene Recognition [10.796613905980609]
オブジェクトおよびシーン認識タスクのための多モードRGB-D画像から識別的特徴表現を抽出する新しいフレームワークを提案する。
CNNアクティベーションの高次元性に対応するため、ランダムな重み付けプール方式が提案されている。
実験では、RNNステージにおける完全ランダム化構造がCNNアクティベーションを符号化し、識別的ソリッドな特徴を成功させることを確認した。
論文 参考訳(メタデータ) (2020-04-26T10:58:27Z) - R-FCN: Object Detection via Region-based Fully Convolutional Networks [87.62557357527861]
我々は,高精度かつ効率的な物体検出のための領域ベースの完全畳み込みネットワークを提案する。
我々の結果は、Faster R-CNNよりも2.5-20倍高速で、1画像あたり170msのテストタイムで達成される。
論文 参考訳(メタデータ) (2016-05-20T15:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。