論文の概要: Upgrading the Newsroom: An Automated Image Selection System for News
Articles
- arxiv url: http://arxiv.org/abs/2004.11449v1
- Date: Thu, 23 Apr 2020 20:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 08:42:50.808787
- Title: Upgrading the Newsroom: An Automated Image Selection System for News
Articles
- Title(参考訳): newsroomのアップグレード:ニュース記事の自動画像選択システム
- Authors: Fangyu Liu, R\'emi Lebret, Didier Orel, Philippe Sordet, Karl Aberer
- Abstract要約: ニュース記事に適した画像を選択する際に,写真編集者を支援する自動画像選択システムを提案する。
本システムは,ニュース記事から抽出した複数のテキストソースを融合し,多言語入力を受け入れる。
マルチモーダルな多言語ニュース記事を含む大規模テキスト画像データベース上で,本システムを広範囲に実験した。
- 参考スコア(独自算出の注目度): 6.901494425127736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an automated image selection system to assist photo editors in
selecting suitable images for news articles. The system fuses multiple textual
sources extracted from news articles and accepts multilingual inputs. It is
equipped with char-level word embeddings to help both modeling morphologically
rich languages, e.g. German, and transferring knowledge across nearby
languages. The text encoder adopts a hierarchical self-attention mechanism to
attend more to both keywords within a piece of text and informative components
of a news article. We extensively experiment with our system on a large-scale
text-image database containing multimodal multilingual news articles collected
from Swiss local news media websites. The system is compared with multiple
baselines with ablation studies and is shown to beat existing text-image
retrieval methods in a weakly-supervised learning setting. Besides, we also
offer insights on the advantage of using multiple textual sources and
multilingual data.
- Abstract(参考訳): 本稿では,ニュース記事に適した画像選択を支援する自動画像選択システムを提案する。
本システムは,ニュース記事から抽出した複数のテキストソースを融合し,多言語入力を受け入れる。
例えばドイツ語のような形態学的にリッチな言語をモデル化し、近くの言語にまたがる知識の伝達を支援するために、charレベルの単語埋め込みを備えている。
テキストエンコーダは、階層的な自己認識機構を採用して、テキスト内のキーワードとニュース記事の情報的コンポーネントの両方にもっと参加する。
スイスのローカルニュースサイトから収集した多言語ニュース記事を含む大規模テキスト画像データベース上で,本システムを広範囲に実験した。
本システムは,複数のベースラインとアブレーション研究を比較し,弱教師付き学習環境で既存のテキスト画像検索手法に勝っていることを示す。
さらに、複数のテキストソースと多言語データを使用する利点についての洞察も提供する。
関連論文リスト
- MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages [0.4062349563818079]
Indic Fake News Detection (MMIFND) のためのマルチモーダル多言語データセットを提案する。
この厳密にキュレートされたデータセットは、ヒンディー語、ベンガル語、マラタイ語、マラヤラム語、タミル語、グジャラート語、パンジャービ語にまたがる28,085のインスタンスで構成されている。
フェイクニュース検出(MMCFND)のためのマルチモーダルキャプション対応フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:59:33Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - XL-HeadTags: Leveraging Multimodal Retrieval Augmentation for the Multilingual Generation of News Headlines and Tags [19.09498276014971]
見出しとエンティティ(トピック)タグは、読者にコンテンツが彼らの時間に値するかどうかを判断するために不可欠である。
記事に埋め込まれた画像やキャプションなどの補助情報を利用して関連文の検索を行う。
我々はXL-HeadTagsというデータセットをコンパイルした。
論文 参考訳(メタデータ) (2024-06-06T06:40:19Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge
Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。
マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T08:32:18Z) - MultiSubs: A Large-scale Multimodal and Multilingual Dataset [32.48454703822847]
本稿では,単語から画像への接地の研究を容易にすることを目的とした,大規模マルチモーダル・多言語データセットを提案する。
データセットは、映画の字幕から文章で表現された概念を曖昧に描写するために選択された画像からなる。
i) 空白を埋める, (ii) 語彙変換という2つの自動タスクにおけるデータセットの有用性を示す。
論文 参考訳(メタデータ) (2021-03-02T18:09:07Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Batch Clustering for Multilingual News Streaming [0.0]
多種多様で非組織的な情報が大量にあるため、読み書きは困難またはほぼ不可能である。
記事はバッチ毎に処理し、モノリンガルなローカルトピックを探し、時間と言語にまたがってリンクします。
我々のシステムは、スペイン語とドイツ語のニュースのデータセットにモノリンガルな結果を与え、英語、スペイン語、ドイツ語のニュースにクロスリンガルな結果を与える。
論文 参考訳(メタデータ) (2020-04-17T08:59:13Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。