論文の概要: An Unsupervised Sampling Approach for Image-Sentence Matching Using
Document-Level Structural Information
- arxiv url: http://arxiv.org/abs/2104.02605v1
- Date: Sun, 21 Mar 2021 05:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 06:35:16.909707
- Title: An Unsupervised Sampling Approach for Image-Sentence Matching Using
Document-Level Structural Information
- Title(参考訳): 文書レベル構造情報を用いた画像文マッチングのための教師なしサンプリング手法
- Authors: Zejun Li, Zhongyu Wei, Zhihao Fan, Haijun Shan, Xuanjing Huang
- Abstract要約: 教師なし画像文マッチングの問題に焦点をあてる。
既存の研究では、文書レベルの構造情報を用いて、モデルトレーニングの正および負のインスタンスをサンプリングする方法が検討されている。
そこで本研究では,追加の文書内画像-文対を正あるいは負のサンプルとして選択する新しいサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 64.66785523187845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on the problem of unsupervised image-sentence
matching. Existing research explores to utilize document-level structural
information to sample positive and negative instances for model training.
Although the approach achieves positive results, it introduces a sampling bias
and fails to distinguish instances with high semantic similarity. To alleviate
the bias, we propose a new sampling strategy to select additional
intra-document image-sentence pairs as positive or negative samples.
Furthermore, to recognize the complex pattern in intra-document samples, we
propose a Transformer based model to capture fine-grained features and
implicitly construct a graph for each document, where concepts in a document
are introduced to bridge the representation learning of images and sentences in
the context of a document. Experimental results show the effectiveness of our
approach to alleviate the bias and learn well-aligned multimodal
representations.
- Abstract(参考訳): 本稿では,教師なし画像文マッチングの問題に焦点をあてる。
既存の研究では、文書レベルの構造情報を用いて、モデルトレーニングの正および負のインスタンスをサンプリングする方法が検討されている。
このアプローチはポジティブな結果をもたらすが、サンプリングバイアスを導入し、意味的類似性の高いインスタンスを区別できない。
バイアスを軽減するために,文書内画像-文対を正あるいは負のサンプルとして選択する新しいサンプリング手法を提案する。
さらに, 文書内サンプルの複雑なパターンを認識するために, 細粒度特徴をキャプチャし, 各文書に対して暗黙的にグラフを構築するトランスフォーマモデルを提案し, 文書内の概念を導入して, 文書の文脈における画像や文の表現学習の橋渡しを行う。
実験結果から, 偏りを緩和し, マルチモーダル表現を適切に学習する手法の有効性が示された。
関連論文リスト
- Sample-Specific Debiasing for Better Image-Text Models [6.301766237907306]
画像テキストデータに基づく自己教師付き表現学習は、画像分類、視覚的接地、相互モーダル検索などの重要な医学的応用を促進する。
1つの一般的なアプローチは、意味論的に類似した(肯定的な)および異種(否定的な)データポイントの対を対比することである。
トレーニングデータセットから一様に負のサンプルを描画すると、偽の負、すなわち、異種として扱われるが同一のクラスに属するサンプルが導入される。
医療データでは、基礎となるクラス分布は不均一であり、偽陰性は高い変動率で起こることを意味する。
論文 参考訳(メタデータ) (2023-04-25T22:23:41Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Sequence Level Contrastive Learning for Text Summarization [49.01633745943263]
教師付き抽象テキスト要約のためのコントラスト学習モデルを提案する。
我々のモデルは、対照的な目的を伴わずに、それと比べ、より良い忠実度の評価を達成する。
論文 参考訳(メタデータ) (2021-09-08T08:00:36Z) - Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。
一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。
実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-08-13T10:43:20Z) - Support-set bottlenecks for video-text representation learning [131.4161071785107]
ビデオテキスト表現(ノイズコントラスト学習)を学ぶための支配的なパラダイムは厳しすぎる。
本稿では,これらのサンプルを自然に押下する生成モデルを活用することによって,これを緩和する手法を提案する。
提案手法は,MSR-VTT,VATEX,ActivityNet,MSVDにおいて,ビデオ・テキスト・テキスト・ビデオ検索やテキスト・トゥ・ビデオ検索において,他よりも優れていた。
論文 参考訳(メタデータ) (2020-10-06T15:38:54Z) - CSI: Novelty Detection via Contrastive Learning on Distributionally
Shifted Instances [77.28192419848901]
コントラストシフトインスタンス (CSI) という,単純かつ効果的な手法を提案する。
従来のコントラスト学習法のように,サンプルを他の例と対比することに加えて,本トレーニング手法では,サンプルを分散シフトによる拡張と対比する。
本実験は, 種々の新規検出シナリオにおける本手法の優位性を実証する。
論文 参考訳(メタデータ) (2020-07-16T08:32:56Z) - Multi-Image Summarization: Textual Summary from a Set of Cohesive Images [17.688344968462275]
本稿では,マルチイメージ要約の新しい課題を提案する。
入力画像のコヒーレントな集合から簡潔で記述的なテキスト要約を生成することを目的としている。
密度の高い平均画像特徴集約ネットワークにより、モデルは属性のコヒーレントなサブセットに集中することができる。
論文 参考訳(メタデータ) (2020-06-15T18:45:35Z) - Self-Supervised Representation Learning on Document Images [8.927538538637783]
パッチベースの事前学習は,異なる構造特性とサンプル内セマンティック情報が乏しいため,文書画像上では不十分であることを示す。
そこで本稿では,Tobacco-3482画像分類タスクの性能向上のための2つのコンテキスト認識手法を提案する。
論文 参考訳(メタデータ) (2020-04-18T10:14:06Z) - Informative Sample Mining Network for Multi-Domain Image-to-Image
Translation [101.01649070998532]
本稿では,画像から画像への翻訳作業において,サンプル選択戦略の改善が有効であることを示す。
本稿では,サンプルの硬さを抑えつつ,サンプルの硬さを抑えるための新しい多段階サンプルトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-01-05T05:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。