Fugu-MT 論文翻訳(概要): EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata

論文の概要: EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata

arxiv url: http://arxiv.org/abs/2301.04647v3
Date: Tue, 18 Apr 2023 02:03:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 17:56:23.195401
Title: EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata
Title（参考訳）: EXIF as Language: 画像とカメラメタデータの相互関連を学習する
Authors: Chenhao Zheng, Ayush Shrivastava, Andrew Owens
Abstract要約: 我々は、与えられた写真を記録するカメラに関する情報をキャプチャする視覚表現を学習する。私たちのモデルは、単にテキストに変換して、変換器で処理することで、このメタデータを表現します。
参考スコア（独自算出の注目度）: 9.578169216444815
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We learn a visual representation that captures information about the camera that recorded a given photo. To do this, we train a multimodal embedding between image patches and the EXIF metadata that cameras automatically insert into image files. Our model represents this metadata by simply converting it to text and then processing it with a transformer. The features that we learn significantly outperform other self-supervised and supervised features on downstream image forensics and calibration tasks. In particular, we successfully localize spliced image regions "zero shot" by clustering the visual embeddings for all of the patches within an image.
Abstract（参考訳）: 我々は、与えられた写真を記録するカメラに関する情報をキャプチャする視覚表現を学ぶ。そこで我々は,画像パッチとEXIFメタデータのマルチモーダル埋め込みを訓練し,カメラが自動的に画像ファイルに挿入する。私たちのモデルは、単にテキストに変換し、変換器で処理することで、このメタデータを表現します。私たちが学んだ機能は、下流の画像検査や校正作業において、他の自己監督機能や監督機能よりも大幅に優れています。特に,画像内のすべてのパッチに対して視覚的な埋め込みをクラスタリングすることにより,スプライシングされた画像領域を"ゼロショット"にローカライズすることに成功した。

関連論文リスト

Visual Pre-Training on Unlabeled Images using Reinforcement Learning [62.66487459225838]
強化学習(RL)において、価値に基づくアルゴリズムは、それぞれの観察と状態とそれから到達しそうな報酬を関連付けることを学習する。この定式化に類似した自己教師付き画像事前学習法が多数存在することが観察された。 RL問題として,Webクロールやビデオフレームなどのラベル付けされていない画像データに事前学習を直接キャストする手法を提案する。
論文参考訳（メタデータ） (2025-06-13T17:25:27Z)
GlobalMamba: Global Image Serialization for Vision Mamba [73.50475621164037]
視覚マンバは、視覚トークンの数に対して線形複雑度で強い性能を示した。既存のほとんどの方法はパッチベースの画像トークン化を採用し、因果処理のためにそれらを1Dシーケンスにフラット化する。本稿では,グローバルな画像シリアライズ手法を提案し,その画像を因果トークンのシーケンスに変換する。
論文参考訳（メタデータ） (2024-10-14T09:19:05Z)
PlaceFormer: Transformer-based Visual Place Recognition using Multi-Scale Patch Selection and Fusion [2.3020018305241337]
PlaceFormerは、視覚的位置認識のためのトランスフォーマーベースのアプローチである。 PlaceFormerは、トランスフォーマーからのパッチトークンを使用して、グローバルなイメージ記述子を生成する。イメージ内のタスク関連領域に対応するパッチを選択する。
論文参考訳（メタデータ） (2024-01-23T20:28:06Z)
A Transformer-Based Adaptive Semantic Aggregation Method for UAV Visual Geo-Localization [2.1462492411694756]
本稿では,無人航空機(UAV)の視覚的ジオローカライゼーションの課題について述べる。部分レベルの表現は、画像の詳細をキャプチャし、シーンの意味情報を理解するのに役立つため、UAVの視覚的ジオローカライゼーションには、パートマッチングが不可欠である。画像中の最も代表的な意味論として部品を考慮に入れた変換器に基づく適応的意味的アグリゲーション手法を提案する。
論文参考訳（メタデータ） (2024-01-03T06:58:52Z)
Patch Is Not All You Need [57.290256181083016]
本稿では,画像の変換を適応的に変換する新しいパターン変換器を提案する。我々は畳み込みニューラルネットワークを用いて入力画像から様々なパターンを抽出する。我々は,CIFAR-10とCIFAR-100で最先端のパフォーマンスを達成し,ImageNet上での競合的な結果を得た。
論文参考訳（メタデータ） (2023-08-21T13:54:00Z)
iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文参考訳（メタデータ） (2023-05-10T07:39:14Z)
Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。 3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文参考訳（メタデータ） (2023-03-22T15:48:23Z)
Vision Transformer Based Model for Describing a Set of Images as a Story [26.717033245063092]
本稿では,画像の集合を物語として記述する新しいビジョントランスフォーマーベースモデルを提案する。提案手法は視覚変換器(ViT)を用いて入力画像の特徴を抽出する。提案モデルの性能はVisual Story-Telling dataset (VIST)を用いて評価する。
論文参考訳（メタデータ） (2022-10-06T09:01:50Z)
SISL:Self-Supervised Image Signature Learning for Splicing Detection and Localization [11.437760125881049]
画像の周波数変換からスプライシング検出/局所化モデルを訓練するための自己教師型アプローチを提案する。提案したモデルでは,ラベルやメタデータを使わずに,標準データセット上で同様のあるいはより良いパフォーマンスが得られる。
論文参考訳（メタデータ） (2022-03-15T12:26:29Z)
XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文参考訳（メタデータ） (2021-06-17T17:33:35Z)
A Hierarchical Transformation-Discriminating Generative Model for Few Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文参考訳（メタデータ） (2021-04-29T17:49:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。