論文の概要: MultiSubs: A Large-scale Multimodal and Multilingual Dataset
- arxiv url: http://arxiv.org/abs/2103.01910v1
- Date: Tue, 2 Mar 2021 18:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:47:25.719961
- Title: MultiSubs: A Large-scale Multimodal and Multilingual Dataset
- Title(参考訳): MultiSubs: 大規模マルチモーダルおよびマルチ言語データセット
- Authors: Josiah Wang, Pranava Madhyastha, Josiel Figueiredo, Chiraag Lala,
Lucia Specia
- Abstract要約: 本稿では,単語から画像への接地の研究を容易にすることを目的とした,大規模マルチモーダル・多言語データセットを提案する。
データセットは、映画の字幕から文章で表現された概念を曖昧に描写するために選択された画像からなる。
i) 空白を埋める, (ii) 語彙変換という2つの自動タスクにおけるデータセットの有用性を示す。
- 参考スコア(独自算出の注目度): 32.48454703822847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a large-scale multimodal and multilingual dataset that
aims to facilitate research on grounding words to images in their contextual
usage in language. The dataset consists of images selected to unambiguously
illustrate concepts expressed in sentences from movie subtitles. The dataset is
a valuable resource as (i) the images are aligned to text fragments rather than
whole sentences; (ii) multiple images are possible for a text fragment and a
sentence; (iii) the sentences are free-form and real-world like; (iv) the
parallel texts are multilingual. We set up a fill-in-the-blank game for humans
to evaluate the quality of the automatic image selection process of our
dataset. We show the utility of the dataset on two automatic tasks: (i)
fill-in-the blank; (ii) lexical translation. Results of the human evaluation
and automatic models demonstrate that images can be a useful complement to the
textual context. The dataset will benefit research on visual grounding of words
especially in the context of free-form sentences.
- Abstract(参考訳): 本稿では,単語から画像への接地の研究を容易にすることを目的とした,大規模マルチモーダル・多言語データセットを提案する。
データセットは、映画の字幕から文章で表現された概念を曖昧に描写するために選択された画像からなる。
データセットは、(i) 画像が全文ではなくテキスト断片に整列される、(ii) テキスト断片と文に対して複数の画像が可能、(iii) 文は自由形式であり、実世界的である、(iv) 並列テキストは多言語である、という貴重なリソースである。
我々は、データセットの自動画像選択プロセスの品質を評価するために、人間のための補足ゲームを構築した。
i) 空白を埋める, (ii) 語彙変換という2つの自動タスクにおけるデータセットの有用性を示す。
人間の評価および自動モデルの結果はイメージがテキスト文脈に有用な補足であることができることを示します。
このデータセットは、特に自由形式の文の文脈における単語の視覚的接地に関する研究に有効である。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Multimodal Neural Machine Translation with Search Engine Based Image
Retrieval [4.662583832063716]
バイリンガルパラレルコーパスのための記述画像収集のためのオープン語彙画像検索手法を提案する。
提案手法は,強いベースラインに対する大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-07-26T08:42:06Z) - Backretrieval: An Image-Pivoted Evaluation Metric for Cross-Lingual Text
Representations Without Parallel Corpora [19.02834713111249]
Backretrievalは、注釈付きデータセットの地上の真実メトリクスと相関している。
本実験は,並列言語間データを用いないレシピデータセットのケーススタディで締めくくった。
論文 参考訳(メタデータ) (2021-05-11T12:14:24Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。