論文の概要: Show and Write: Entity-aware News Generation with Image Information
- arxiv url: http://arxiv.org/abs/2112.05917v1
- Date: Sat, 11 Dec 2021 05:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 16:24:09.756246
- Title: Show and Write: Entity-aware News Generation with Image Information
- Title(参考訳): Show and Write: 画像情報付きエンティティ対応ニュース生成
- Authors: Zhongping Zhang, Yiwen Gu, Bryan A. Plummer
- Abstract要約: 本稿では,画像iNformationを用いたエンティティ対応ニュース生成手法であるEnginを紹介し,ニュース画像情報を言語モデルに組み込む。
Enginは、メタデータとキャプションや画像から抽出された名前付きエンティティといった情報の両方を条件としたニュース記事を生成する。
- 参考スコア(独自算出の注目度): 13.312732363902233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically writing long articles is a complex and challenging language
generation task. Prior work has primarily focused on generating these articles
using human-written prompt to provide some topical context and some metadata
about the article. That said, for many applications, such as generating news
stories, these articles are often paired with images and their captions or
alt-text, which in turn are based on real-world events and may reference many
different named entities that are difficult to be correctly recognized and
predicted by language models. To address these two problems, this paper
introduces an Entity-aware News Generation method with Image iNformation,
Engin, to incorporate news image information into language models. Engin
produces news articles conditioned on both metadata and information such as
captions and named entities extracted from images. We also propose an
Entity-aware mechanism to help our model better recognize and predict the
entity names in news. We perform experiments on two public large-scale news
datasets, GoodNews and VisualNews. Quantitative results show that our approach
improves article perplexity by 4-5 points over the base models. Qualitative
results demonstrate the text generated by Engin is more consistent with news
images. We also perform article quality annotation experiment on the generated
articles to validate that our model produces higher-quality articles. Finally,
we investigate the effect Engin has on methods that automatically detect
machine-generated articles.
- Abstract(参考訳): 長い記事を自動的に書くことは、複雑で困難な言語生成タスクです。
先行研究は主に、記事に関するトピックコンテキストとメタデータを提供するために、人間が書いたプロンプトを使ってこれらの記事を生成することに重点を置いてきた。
とは言っても、ニュース記事の生成など、多くのアプリケーションにおいて、これらの記事は画像やキャプションやalt-textと組み合わせられることが多く、これは現実の出来事に基づいており、言語モデルによって正しく認識され予測されにくい多くの異なる名前のエンティティを参照することができる。
この2つの問題に対処するため,本稿では,ニュース画像情報を言語モデルに組み込むための画像情報enginを用いたエンティティ対応ニュース生成手法を提案する。
Enginは、メタデータとキャプションや画像から抽出された名前付きエンティティといった情報の両方を条件としたニュース記事を生成する。
我々はまた、私たちのモデルがニュース中のエンティティ名をよりよく認識し、予測するのに役立つEntity-Awareメカニズムを提案する。
大規模ニュースデータセットであるGoodNewsとVisualNewsで実験を行った。
定量的結果から,本手法は基本モデルよりも4-5ポイント向上することが示された。
定性的な結果は、Enginが生成したテキストがニュース画像とより一致していることを示している。
また,生成した記事に対して品質アノテーション実験を行い,モデルが高品質な記事を生成することを検証した。
最後に,Enginが機械生成物を自動検出する手法に与える影響について検討する。
関連論文リスト
- Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Informed Named Entity Recognition Decoding for Generative Language
Models [3.5323691899538128]
Informed Named Entity Recognition Decoding (iNERD) を提案する。
8つの名前付きエンティティ認識データセット上で5つの生成言語モデルを評価し、優れた結果を得るため、統合されたエンティティコーパス上でモデルを粗いチューニングを行い、その性能を向上させる。
論文 参考訳(メタデータ) (2023-08-15T14:16:29Z) - DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。
本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-24T21:05:02Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - LUKE: Deep Contextualized Entity Representations with Entity-aware
Self-attention [37.111204321059084]
両方向変換器に基づく単語と実体の事前学習した文脈表現を提案する。
我々のモデルは、BERTのマスキング言語モデルに基づく新しい事前訓練タスクを用いて訓練される。
また,変換器の自己認識機構の拡張である自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-02T15:38:03Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。