論文の概要: The Case for Perspective in Multimodal Datasets
- arxiv url: http://arxiv.org/abs/2205.10902v1
- Date: Sun, 22 May 2022 18:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 17:09:10.529034
- Title: The Case for Perspective in Multimodal Datasets
- Title(参考訳): マルチモーダルデータセットにおけるパースペクティブのケース
- Authors: Marcelo Viridiano, Tiago Timponi Torrent, Oliver Czulo, Arthur Lorenzi
Almeida, Ely Edison da Silva Matos, Frederico Belcavello
- Abstract要約: FrameNetアノテーションがMulti30kおよびFlickr 30k Entitiesデータセットに適用される一連の実験を示す。
画像のアノテーションとフレームのキャプションの両方から得られた意味表現のコサイン類似性を評価する。
- 参考スコア(独自算出の注目度): 0.9786690381850356
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper argues in favor of the adoption of annotation practices for
multimodal datasets that recognize and represent the inherently perspectivized
nature of multimodal communication. To support our claim, we present a set of
annotation experiments in which FrameNet annotation is applied to the Multi30k
and the Flickr 30k Entities datasets. We assess the cosine similarity between
the semantic representations derived from the annotation of both pictures and
captions for frames. Our findings indicate that: (i) frame semantic similarity
between captions of the same picture produced in different languages is
sensitive to whether the caption is a translation of another caption or not,
and (ii) picture annotation for semantic frames is sensitive to whether the
image is annotated in presence of a caption or not.
- Abstract(参考訳): 本稿では,マルチモーダル通信の本質的にパースペクティブな性質を認識し,表現するマルチモーダルデータセットにアノテーションプラクティスを適用することを支持する。
そこで我々は,Multi30kとFlickr 30k EntitiesデータセットにFrameNetアノテーションを適用する一連のアノテーション実験を行った。
画像のアノテーションとフレームのキャプションの両方から得られた意味表現のコサイン類似性を評価する。
私たちの発見は
(i)異なる言語で作成された同一画像のキャプション間のフレーム意味的類似性は、キャプションが他のキャプションの翻訳であるか否かに敏感である。
(ii)意味フレームに対する画像アノテーションは、キャプションの存在下で注釈されているか否かに敏感である。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image
Captioning [0.65268245109828]
コヒーレントエンティティを意識したマルチイメージキャプションは、ニュース文書に隣接する画像のコヒーレントキャプションを生成することを目的としている。
本稿では,コヒーレンス関係を利用して,コヒーレントな実体認識型マルチイメージキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-02-04T07:50:31Z) - Paraphrase Acquisition from Image Captions [36.94459555199183]
本稿では,Web のキャプションをパラフレーズのリソースとして利用することを提案する。
英語のウィキペディアで字幕を解析し、編集者は異なる記事に対してしばしば同じ画像をレバーベットする。
2つの類似性次元に沿った特徴写像を導入し、異なるソースから来るパラフレーズのスタイルを特定する。
論文 参考訳(メタデータ) (2023-01-26T10:54:51Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Is An Image Worth Five Sentences? A New Look into Semantics for
Image-Text Matching [10.992151305603267]
本稿では,検索項目の意味的関連度を評価するための2つの指標を提案する。
画像キャプションの指標であるCIDErを用いて,標準的な三重項損失に最適化されるセマンティック適応マージン(SAM)を定義する。
論文 参考訳(メタデータ) (2021-10-06T09:54:28Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。