論文の概要: Connecting What to Say With Where to Look by Modeling Human Attention
Traces
- arxiv url: http://arxiv.org/abs/2105.05964v1
- Date: Wed, 12 May 2021 20:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 14:00:05.190537
- Title: Connecting What to Say With Where to Look by Modeling Human Attention
Traces
- Title(参考訳): 人の注意の痕跡をモデル化して、どこを見るべきかを考える
- Authors: Zihang Meng, Licheng Yu, Ning Zhang, Tamara Berg, Babak Damavandi,
Vikas Singh, Amy Bearman
- Abstract要約: 画像,テキスト,人間の注意跡を共同でモデル化する統合フレームワークを提案する。
本研究では,(1)画像とキャプション(視覚的接地)に与えられたトレースを予測し,(2)画像のみに与えられるキャプションとトレースを予測する2つの新しいタスクを提案する。
- 参考スコア(独自算出の注目度): 30.8226861256742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a unified framework to jointly model images, text, and human
attention traces. Our work is built on top of the recent Localized Narratives
annotation framework [30], where each word of a given caption is paired with a
mouse trace segment. We propose two novel tasks: (1) predict a trace given an
image and caption (i.e., visual grounding), and (2) predict a caption and a
trace given only an image. Learning the grounding of each word is challenging,
due to noise in the human-provided traces and the presence of words that cannot
be meaningfully visually grounded. We present a novel model architecture that
is jointly trained on dual tasks (controlled trace generation and controlled
caption generation). To evaluate the quality of the generated traces, we
propose a local bipartite matching (LBM) distance metric which allows the
comparison of two traces of different lengths. Extensive experiments show our
model is robust to the imperfect training data and outperforms the baselines by
a clear margin. Moreover, we demonstrate that our model pre-trained on the
proposed tasks can be also beneficial to the downstream task of COCO's guided
image captioning. Our code and project page are publicly available.
- Abstract(参考訳): 画像,テキスト,人間の注意跡を共同でモデル化する統合フレームワークを提案する。
私たちの作品は、最近のローカライズされたナラティブアノテーションフレームワーク[30]上に構築されており、与えられたキャプションの各単語はマウスのトレースセグメントとペアリングされています。
本研究では,(1)画像とキャプション(視覚的接地)に与えられたトレースを予測し,(2)画像のみに与えられるキャプションとトレースを予測する2つの新しいタスクを提案する。
人為的トレースのノイズや、視覚的にグラウンド化できない単語の存在のため、各単語のグラウンド化を学習することは困難である。
本稿では,2つのタスク(トレース生成とキャプション生成の制御)を共同で訓練した新しいモデルアーキテクチャを提案する。
生成したトレースの品質を評価するために,異なる長さの2つのトレースを比較可能な局所二部マッチング(LBM)距離測定法を提案する。
広範な実験により,モデルが不完全なトレーニングデータに頑健であることを示し,ベースラインを明確なマージンで上回った。
さらに,提案課題に事前学習したモデルが,COCOのガイド画像キャプションの下流タスクにも有効であることを示す。
私たちのコードとプロジェクトページは公開されています。
関連論文リスト
- Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - UNIMO-2: End-to-End Unified Vision-Language Grounded Learning [46.914284894632]
本稿では, エンドツーエンドの統一モーダル事前学習フレームワーク, UNIMO-2を提案する。
我々は、画像とテキスト間の視覚表現、テキスト表現、意味的アライメントを共同で学習する統合トランスフォーマーモデルを構築した。
コードとモデルは、UNIMOプロジェクトページで公開されています。
論文 参考訳(メタデータ) (2022-03-17T03:53:11Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Neural Twins Talk [0.0]
本稿では,最新の画像キャプションモデルよりも優れた新しいツインカスケードアテンションモデルを提案する。
視覚的接頭辞は、入力画像内の特定の領域に接頭した文中の単語の存在を保証する。
実験の結果をCOCOデータセット上の3つの画像キャプションタスクで報告する。
論文 参考訳(メタデータ) (2020-09-26T06:58:58Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。