Fugu-MT 論文翻訳(概要): Visually-Aware Context Modeling for News Image Captioning

論文の概要: Visually-Aware Context Modeling for News Image Captioning

arxiv url: http://arxiv.org/abs/2308.08325v1
Date: Wed, 16 Aug 2023 12:39:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 13:34:51.607444
Title: Visually-Aware Context Modeling for News Image Captioning
Title（参考訳）: ニュース画像キャプションのための視覚的コンテキストモデリング
Authors: Tingyu Qu, Tinne Tuytelaars, Marie-Francine Moens
Abstract要約: 心理学的な研究は、画像中の人間の顔がより高い注意を惹きつけることを示している。画像の顔や字幕やアーティクルに名前を入れるための顔名モジュールを設計し、より優れた名前の埋め込みを学習する。我々は,フレームワークの有効性を実証するための広範囲な実験を行った。
参考スコア（独自算出の注目度）: 61.04696420226725
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The goal of News Image Captioning is to generate an image caption according to the content of both a news article and an image. To leverage the visual information effectively, it is important to exploit the connection between the context in the articles/captions and the images. Psychological studies indicate that human faces in images draw higher attention priorities. On top of that, humans often play a central role in news stories, as also proven by the face-name co-occurrence pattern we discover in existing News Image Captioning datasets. Therefore, we design a face-naming module for faces in images and names in captions/articles to learn a better name embedding. Apart from names, which can be directly linked to an image area (faces), news image captions mostly contain context information that can only be found in the article. Humans typically address this by searching for relevant information from the article based on the image. To emulate this thought process, we design a retrieval strategy using CLIP to retrieve sentences that are semantically close to the image. We conduct extensive experiments to demonstrate the efficacy of our framework. Without using additional paired data, we establish the new state-of-the-art performance on two News Image Captioning datasets, exceeding the previous state-of-the-art by 5 CIDEr points. We will release code upon acceptance.
Abstract（参考訳）: ニュース画像キャプションの目的は、ニュース記事と画像の両方の内容に応じて画像キャプションを生成することである。視覚情報を効果的に活用するためには、記事やキャプションのコンテキストと画像の関連性を活用することが重要である。心理学的研究は、画像中の人間の顔がより高い注意を惹きつけることを示している。それに加えて、既存のNews Image Captioningデータセットで発見された顔名共起パターンによって証明されるように、ニュースストーリーにおいて人間はしばしば中心的な役割を果たす。そこで,画像中の顔とキャプション/記事中の名前に対する顔認識モジュールをデザインし,より優れた名前埋め込みを学ぶ。画像領域(顔)に直接リンクできる名前は別として、ニュース画像キャプションには記事にのみ見られるコンテキスト情報が含まれることが多い。人間は通常、画像に基づいて記事から関連する情報を探すことでこの問題に対処する。この思考過程をエミュレートするために,CLIPを用いた検索戦略を設計し,画像にセマンティックに近い文を検索する。フレームワークの有効性を実証するための広範な実験を行う。 2つのニュース画像キャプションデータセットにおける新たな最先端性能を,新たなペアデータを用いずに確立する。受け入れ次第、コードをリリースします。

関連論文リスト

SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文参考訳（メタデータ） (2025-07-29T22:26:20Z)
FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文参考訳（メタデータ） (2024-12-04T18:56:04Z)
Assessing News Thumbnail Representativeness: Counterfactual text can enhance the cross-modal matching ability [5.111382868644429]
ニュース画像がニューステキストで議論されているアクターを表すかどうかに焦点をあてる。我々は,1000個のニュースサムネイル画像とテキストペアのデータセットであるNewsTTを紹介する。仮説に従って視覚と言語バイエンコーダを更新するコントラスト学習フレームワークであるCFT-CLIPを提案する。
論文参考訳（メタデータ） (2024-02-17T01:27:29Z)
Visual Semantic Relatedness Dataset for Image Captioning [27.788077963411624]
そこで本研究では,COCO キャプションがシーン情報とともに拡張された,キャプションのためのテキストビジュアルコンテキストデータセットを提案する。この情報は、テキスト類似性や意味的関係法など、任意のNLPタスクをキャプションシステムに活用するために使用することができる。
論文参考訳（メタデータ） (2023-01-20T20:04:35Z)
ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions [6.066100464517522]
ニュースデータなどのドメインに存在する実世界のイメージキャプチャペアは、単純で直接記述的なキャプションを使用しない。我々は、さまざまな状況下でオンラインニュース記事から抽出した抽象ニュースキャプティオNs dAtasetであるANNAをローンチした。翻訳学習のような手法は抽象的なキャプションの理解において限られた成功を収めるが、コンテンツと文脈の特徴の関係を一貫して学習することができないことを示す。
論文参考訳（メタデータ） (2023-01-05T17:19:01Z)
Focus! Relevant and Sufficient Context Selection for News Image Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文参考訳（メタデータ） (2022-12-01T20:00:27Z)
I2DFormer: Learning Image to Document Attention for Zero-Shot Image Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文参考訳（メタデータ） (2022-09-21T12:18:31Z)
NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文参考訳（メタデータ） (2022-07-26T17:34:11Z)
What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding without Text Inputs [82.93345261434943]
入力画像が与えられたら、そのオブジェクトを記述した画像とフレーズのバウンディングボックスを返します。これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
論文参考訳（メタデータ） (2022-06-19T09:07:30Z)
ICECAP: Information Concentrated Entity-aware Image Captioning [41.53906032024941]
本稿では,情報キャプションを生成するために,エンティティを意識したニュース画像キャプションタスクを提案する。本モデルではまず,モーダリティ検索モデルを用いて関連文の粗い濃度を生成する。 BreakingNewsとGoodNewsの両方の実験では,提案手法の有効性が示されている。
論文参考訳（メタデータ） (2021-08-04T13:27:51Z)
Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文参考訳（メタデータ） (2020-04-17T05:44:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。