論文の概要: Constructing Phrase-level Semantic Labels to Form Multi-Grained
Supervision for Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2109.05523v1
- Date: Sun, 12 Sep 2021 14:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:07:11.459468
- Title: Constructing Phrase-level Semantic Labels to Form Multi-Grained
Supervision for Image-Text Retrieval
- Title(参考訳): 画像テキスト検索のための多点重ね重ね合わせのためのフレーズレベルセマンティックラベルの構築
- Authors: Zhihao Fan, Zhongyu Wei, Zejun Li, Siyuan Wang, Haijun Shan, Xuanjing
Huang, Jianqing Fan
- Abstract要約: テキスト中のミスマッチしたユニットの識別をより良くするためのフレーズレベルの監視を導入する。
一致した文のテキストシーングラフを構築し,フレーズレベルのラベルとしてエンティティとトリプルを抽出する。
トレーニングでは,グローバルな視点とローカルな視点の両方から,マルチスケールのマッチング損失を提案する。
- 参考スコア(独自算出の注目度): 48.20798265640068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing research for image text retrieval mainly relies on sentence-level
supervision to distinguish matched and mismatched sentences for a query image.
However, semantic mismatch between an image and sentences usually happens in
finer grain, i.e., phrase level. In this paper, we explore to introduce
additional phrase-level supervision for the better identification of mismatched
units in the text. In practice, multi-grained semantic labels are automatically
constructed for a query image in both sentence-level and phrase-level. We
construct text scene graphs for the matched sentences and extract entities and
triples as the phrase-level labels. In order to integrate both supervision of
sentence-level and phrase-level, we propose Semantic Structure Aware Multimodal
Transformer (SSAMT) for multi-modal representation learning. Inside the SSAMT,
we utilize different kinds of attention mechanisms to enforce interactions of
multi-grain semantic units in both sides of vision and language. For the
training, we propose multi-scale matching losses from both global and local
perspectives, and penalize mismatched phrases. Experimental results on MS-COCO
and Flickr30K show the effectiveness of our approach compared to some
state-of-the-art models.
- Abstract(参考訳): 既存の画像検索研究は,検索画像の一致文と不一致文を区別するために,主に文レベルの監督に頼っている。
しかし、画像と文間の意味的ミスマッチは通常、より微細な粒、すなわち句レベルで起こる。
本稿では,テキスト中の不一致単位の識別精度向上のためのフレーズレベルの追加的監視を提案する。
実際には、文レベルと句レベルの両方のクエリイメージに対して、複数の粒度のセマンティックラベルが自動的に構築される。
マッチング文のテキストシーングラフを構築し,句レベルラベルとしてエンティティとトリプルを抽出する。
文レベルと句レベルを両立させるため,多モーダル表現学習のためのセマンティック構造対応マルチモーダルトランス (SSAMT) を提案する。
SSAMTの内部では、視覚と言語の両方で多粒意味単位の相互作用を強制するために、異なる種類の注意機構を利用する。
本研究は,グローバルとローカルの両方の視点から,複数スケールのマッチング損失を提案し,ミスマッチしたフレーズをペナルティ化する。
MS-COCO と Flickr30K による実験結果から,提案手法の有効性が示された。
関連論文リスト
- Text-Region Matching for Multi-Label Image Recognition with Missing Labels [5.095488730708477]
TRM-MLは意味のあるクロスモーダルマッチングを強化する新しい手法である。
カテゴリ内およびカテゴリ間セマンティックな関係を利用して未知のラベルを推定するカテゴリプロトタイプを提案する。
提案手法は最先端の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-26T05:29:24Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Flat Multi-modal Interaction Transformer for Named Entity Recognition [1.7605709999848573]
マルチモーダルなエンティティ認識(MNER)は、画像の助けを借りたソーシャルメディア投稿におけるエンティティスパンの識別とカテゴリの認識を目的としている。
MNERのためのフラットマルチモーダル・インタラクション・トランス (FMIT) を提案する。
本研究では,視覚とテキストの微粒な意味表現を統一格子構造に変換し,トランスフォーマーの異なるモダリティに対応するために,新しい相対的位置符号化を設計する。
論文 参考訳(メタデータ) (2022-08-23T15:25:44Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。