論文の概要: PETA: Photo Albums Event Recognition using Transformers Attention
- arxiv url: http://arxiv.org/abs/2109.12499v1
- Date: Sun, 26 Sep 2021 05:23:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 06:38:30.970428
- Title: PETA: Photo Albums Event Recognition using Transformers Attention
- Title(参考訳): PETA: Transformers Attention を用いた写真アルバムのイベント認識
- Authors: Tamar Glaser, Emanuel Ben-Baruch, Gilad Sharir, Nadav Zamir, Asaf Noy,
Lihi Zelnik-Manor
- Abstract要約: 個人写真アルバムにおけるイベント認識は、ハイレベルな画像理解の課題を示す。
画像表現のためのCNNと、アルバム表現のためのトランスフォーマーのパワーを融合した、テーラーメイドのソリューションを提案する。
我々のソリューションは3つの顕著なベンチマークで最先端の結果に達し、すべてのデータセットで90%以上のmAPを達成した。
- 参考スコア(独自算出の注目度): 10.855070748535688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years the amounts of personal photos captured increased
significantly, giving rise to new challenges in multi-image understanding and
high-level image understanding. Event recognition in personal photo albums
presents one challenging scenario where life events are recognized from a
disordered collection of images, including both relevant and irrelevant images.
Event recognition in images also presents the challenge of high-level image
understanding, as opposed to low-level image object classification. In absence
of methods to analyze multiple inputs, previous methods adopted temporal
mechanisms, including various forms of recurrent neural networks. However,
their effective temporal window is local. In addition, they are not a natural
choice given the disordered characteristic of photo albums. We address this gap
with a tailor-made solution, combining the power of CNNs for image
representation and transformers for album representation to perform global
reasoning on image collection, offering a practical and efficient solution for
photo albums event recognition. Our solution reaches state-of-the-art results
on 3 prominent benchmarks, achieving above 90\% mAP on all datasets. We further
explore the related image-importance task in event recognition, demonstrating
how the learned attentions correlate with the human-annotated importance for
this subjective task, thus opening the door for new applications.
- Abstract(参考訳): 近年、個人写真の撮影量は大幅に増加し、複数の画像の理解と高レベルの画像理解に新たな課題が生じた。
個人写真アルバムにおけるイベント認識は、関連する画像と無関係画像の両方を含む、混乱した画像のコレクションからライフイベントが認識されるという難しいシナリオを提示する。
画像内のイベント認識はまた、低レベルの画像オブジェクト分類とは対照的に、高レベルの画像理解の課題を示す。
複数の入力を分析する方法がないため、従来の手法では、様々なタイプの繰り返しニューラルネットワークを含む時間的メカニズムを採用していた。
しかし、その有効時間窓は局所的である。
また、写真アルバムの混乱した特性を考えると、これらは自然な選択ではない。
画像表現のためのcnnとアルバム表現のためのトランスフォーマーの力を組み合わせることで、画像収集においてグローバル推論を行い、フォトアルバムのイベント認識に実用的かつ効率的なソリューションを提供する。
我々のソリューションは3つの顕著なベンチマークで最先端の結果に達し、すべてのデータセットで90%以上のmAPを達成した。
さらに,イベント認識における画像インポータンスタスクについても検討し,学習した注意が,この主観的課題に対する人間の注釈付き重要度とどのように相関するかを実証し,新たな応用への扉を開く。
関連論文リスト
- Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Deep Bayesian Image Set Classification: A Defence Approach against
Adversarial Attacks [32.48820298978333]
ディープニューラルネットワーク(DNN)は、敵にほぼ自信を持って騙される可能性がある。
実際には、敵対的な例として知られる、注意深く摂動された画像に対するディープラーニングシステムの脆弱性は、物理世界のアプリケーションに深刻なセキュリティ上の脅威をもたらす。
本稿では,幅広い敵攻撃に対する防御フレームワークとして,頑健なベイズ画像集合分類を提案する。
論文 参考訳(メタデータ) (2021-08-23T14:52:44Z) - Focus on the Positives: Self-Supervised Learning for Biodiversity
Monitoring [9.086207853136054]
ラベルのない画像コレクションから自己教師付き表現を学習する問題に対処する。
我々は,入力画像間の空間的関係や時間的関係などの情報を符号化する,手軽に利用可能なコンテキストデータを利用する。
地球生物多様性監視の重要課題として、人間の監督が限定された視覚的種分類タスクに適応可能な画像特徴があげられる。
論文 参考訳(メタデータ) (2021-08-14T01:12:41Z) - Collaboration among Image and Object Level Features for Image
Colourisation [25.60139324272782]
画像のカラー化は不適切な問題であり、入力データムに存在するコンテキストとオブジェクトインスタンスに依存する複数の正しいソリューションがある。
従来のアプローチは、強力なユーザーインタラクションを必要とするか、画像レベル(コンテキスト)機能を学ぶために畳み込みニューラルネットワーク(CNN)の能力を利用して、この問題を攻撃しました。
コンボリューションによって得られる画像レベルの特徴とカプセルによってキャプチャされるオブジェクトレベルの特徴を分離する,UCapsNetという単一のネットワークを提案する。
そして,異なる層間の接続をスキップすることで,これらの分離要因間の協調を強制し,高品質で再現可能な画像彩色を実現する。
論文 参考訳(メタデータ) (2021-01-19T11:48:12Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z) - Semantic Photo Manipulation with a Generative Image Prior [86.01714863596347]
GANは、ユーザスケッチ、テキスト、セマンティックラベルなどの入力に条件付きイメージを合成することができる。
GANが入力画像を正確に再現することは困難である。
本稿では,GANが以前に学んだイメージを個々の画像の統計に適応させることにより,これらの問題に対処する。
提案手法は,入力画像の外観と一致して,入力画像を正確に再構成し,新たなコンテンツを合成することができる。
論文 参考訳(メタデータ) (2020-05-15T18:22:05Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。