論文の概要: Memorability: An image-computable measure of information utility
- arxiv url: http://arxiv.org/abs/2104.00805v1
- Date: Thu, 1 Apr 2021 23:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 13:39:30.462362
- Title: Memorability: An image-computable measure of information utility
- Title(参考訳): 記憶可能性:情報ユーティリティのイメージ計算可能な尺度
- Authors: Zoya Bylinskii, Lore Goetschalckx, Anelise Newman, Aude Oliva
- Abstract要約: 本章では画像記憶可能性を正確に予測する最先端アルゴリズムについて詳述する。
本稿では,顔,物体,シーン記憶のためのアルゴリズムの設計と可視化について論じる。
我々は最近のA.I.を示す。
アプローチは、視覚的な記憶力の作成と修正に使用できる。
- 参考スコア(独自算出の注目度): 21.920488962633218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pixels in an image, and the objects, scenes, and actions that they
compose, determine whether an image will be memorable or forgettable. While
memorability varies by image, it is largely independent of an individual
observer. Observer independence is what makes memorability an image-computable
measure of information, and eligible for automatic prediction. In this chapter,
we zoom into memorability with a computational lens, detailing the
state-of-the-art algorithms that accurately predict image memorability relative
to human behavioral data, using image features at different scales from raw
pixels to semantic labels. We discuss the design of algorithms and
visualizations for face, object, and scene memorability, as well as algorithms
that generalize beyond static scenes to actions and videos. We cover the
state-of-the-art deep learning approaches that are the current front runners in
the memorability prediction space. Beyond prediction, we show how recent A.I.
approaches can be used to create and modify visual memorability. Finally, we
preview the computational applications that memorability can power, from
filtering visual streams to enhancing augmented reality interfaces.
- Abstract(参考訳): 画像中のピクセルと、それらが構成するオブジェクト、シーン、アクションは、画像が記憶可能か忘れられるかを決定する。
記憶力は画像によって異なるが、個々の観察者からは独立している。
オブザーバ独立性は、画像計算可能な情報量であり、自動予測に適している。
本章では,人間の行動データに対して画像の記憶性を正確に予測する最新のアルゴリズムを,原画素からセマンティックラベルまでの様々なスケールの画像特徴を用いて,計算レンズを用いて記憶可能性にズームインする。
我々は、顔、物体、シーンの記憶力に関するアルゴリズムと可視化の設計、および静的シーンを超えてアクションやビデオに一般化するアルゴリズムについて論じる。
記憶可能性予測分野における現在のフロントランナーである最先端のディープラーニングアプローチについて紹介する。
予測を超えて、最近のA.I.を示す。
視覚的記憶力の生成と修正にはアプローチが利用できる。
最後に,視覚ストリームのフィルタリングから拡張現実インターフェースの強化に至るまで,記憶可能性に有効な計算アプリケーションをプレビューする。
関連論文リスト
- Modeling Visual Memorability Assessment with Autoencoders Reveals Characteristics of Memorable Images [2.4861619769660637]
画像記憶可能性(英: Image memorability)とは、ある画像が他の画像よりも記憶されやすい現象である。
VGG16畳み込みニューラルネットワーク(CNN)に基づくオートエンコーダを用いた視覚記憶の主観的体験をモデル化した。
我々は,記憶可能性と復元誤差の関係について検討し,空間表現の特異性を評価するとともに,記憶可能性の予測を目的としたGRUモデルを開発した。
論文 参考訳(メタデータ) (2024-10-19T22:58:33Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - See or Guess: Counterfactually Regularized Image Captioning [32.82695612178604]
本稿では、因果推論を利用して、既存のモデルを介入作業に役立てる汎用画像キャプションフレームワークを提案する。
本手法は幻覚を効果的に低減し,画像への忠実さを向上し,小型および大規模の画像・テキスト・モデル間で高い可搬性を示す。
論文 参考訳(メタデータ) (2024-08-29T17:59:57Z) - OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction [0.2796197251957245]
本稿では,OAT(Object-level Attention Transformer)を紹介する。
OATは人間のスキャンパスを予測し、散らかった邪魔者のシーンで対象物を検索する。
我々は、Amazonの書籍カバーデータセットと、収集したビジュアル検索のための新しいデータセットに基づいて、OATを評価した。
論文 参考訳(メタデータ) (2024-07-18T09:33:17Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Efficient data-driven encoding of scene motion using Eccentricity [0.993963191737888]
本稿では,映像・映像ストリームから生成した静的マップを用いて動的視覚シーンを表現する新しい手法を提案する。
地図はピクセル単位で計算された2次元行列であり、偏心データ解析の概念に基づいている。
潜在的なアプリケーションのリストには、ビデオベースのアクティビティ認識、意図認識、オブジェクト追跡、ビデオ記述が含まれる。
論文 参考訳(メタデータ) (2021-03-03T23:11:21Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Visual Chirality [51.685596116645776]
視覚データの統計が反射によってどのように変化するかを検討する。
我々の研究は、データ強化、自己教師付き学習、画像鑑定に影響を及ぼす。
論文 参考訳(メタデータ) (2020-06-16T20:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。