論文の概要: Transformer-Based Multi-modal Proposal and Re-Rank for Wikipedia
Image-Caption Matching
- arxiv url: http://arxiv.org/abs/2206.10436v1
- Date: Tue, 21 Jun 2022 14:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 17:42:30.910263
- Title: Transformer-Based Multi-modal Proposal and Re-Rank for Wikipedia
Image-Caption Matching
- Title(参考訳): Wikipedia画像キャプションマッチングのためのトランスフォーマーに基づくマルチモーダル提案と再学習
- Authors: Nicola Messina, Davide Alessandro Coccomini, Andrea Esuli, Fabrizio
Falchi
- Abstract要約: そこで我々は,Wikipediaイメージキャプションマッチングチャレンジに参加するためにデザインしたシステムをKaggleで紹介する。
提案手法は,Kaggleチャレンジの私的リーダーボード上で,正規化された非カウント累積ゲイン(nDCG)の0.53値を得るという,顕著な結果をもたらす。
- 参考スコア(独自算出の注目度): 9.56339585008373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increased accessibility of web and online encyclopedias, the amount
of data to manage is constantly increasing. In Wikipedia, for example, there
are millions of pages written in multiple languages. These pages contain images
that often lack the textual context, remaining conceptually floating and
therefore harder to find and manage. In this work, we present the system we
designed for participating in the Wikipedia Image-Caption Matching challenge on
Kaggle, whose objective is to use data associated with images (URLs and visual
data) to find the correct caption among a large pool of available ones. A
system able to perform this task would improve the accessibility and
completeness of multimedia content on large online encyclopedias. Specifically,
we propose a cascade of two models, both powered by the recent Transformer
model, able to efficiently and effectively infer a relevance score between the
query image data and the captions. We verify through extensive experimentation
that the proposed two-model approach is an effective way to handle a large pool
of images and captions while maintaining bounded the overall computational
complexity at inference time. Our approach achieves remarkable results,
obtaining a normalized Discounted Cumulative Gain (nDCG) value of 0.53 on the
private leaderboard of the Kaggle challenge.
- Abstract(参考訳): webやオンライン百科事典のアクセシビリティが高まるにつれ、管理するデータの量は絶えず増加している。
例えばWikipediaには、複数の言語で書かれた何百万ページもある。
これらのページには、しばしばテキストコンテキストに欠けるイメージが含まれており、概念的に浮かんでいるため、発見と管理が困難である。
そこで本研究では,画像(URLと視覚データ)に関連付けられたデータを用いて,利用可能な大量のキャプションの中から正しいキャプションを見つけることを目的とした,ウィキペディアのイメージキャプションマッチングチャレンジに参加するためのシステムを提案する。
このタスクを実行できるシステムは、大規模なオンライン百科事典におけるマルチメディアコンテンツのアクセシビリティと完全性を改善する。
具体的には,最近のトランスフォーマーモデルを用いて,クエリ画像データとキャプションの関連性スコアを効率的かつ効果的に推定する2つのモデルのカスケードを提案する。
提案手法は画像とキャプションの大規模なプールを扱う上で有効な方法であり, 推論時の計算複雑性を抑えながら, 広範にわたる実験により検証する。
提案手法は,カグルチャレンジの個人リーダーボード上で0.53の正規化割引累積利得(ndcg)値を得た。
関連論文リスト
- Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Image Captioning with Multi-Context Synthetic Data [16.961112970612447]
大規模なモデルは高品質な画像やテキストを作成するのに優れています。
マルチコンテキストデータ生成を導入した革新的なパイプラインを提案する。
我々のモデルは、このプロセスを通じて構築された合成画像テキストペアに特化して訓練されている。
論文 参考訳(メタデータ) (2023-05-29T13:18:59Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。
画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。
提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文 参考訳(メタデータ) (2021-06-20T09:10:11Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Multi-Image Summarization: Textual Summary from a Set of Cohesive Images [17.688344968462275]
本稿では,マルチイメージ要約の新しい課題を提案する。
入力画像のコヒーレントな集合から簡潔で記述的なテキスト要約を生成することを目的としている。
密度の高い平均画像特徴集約ネットワークにより、モデルは属性のコヒーレントなサブセットに集中することができる。
論文 参考訳(メタデータ) (2020-06-15T18:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。