論文の概要: Generating Image Descriptions via Sequential Cross-Modal Alignment
Guided by Human Gaze
- arxiv url: http://arxiv.org/abs/2011.04592v1
- Date: Mon, 9 Nov 2020 17:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 00:06:29.875079
- Title: Generating Image Descriptions via Sequential Cross-Modal Alignment
Guided by Human Gaze
- Title(参考訳): ヒューマン・ゲイズによる逐次クロスモーダルアライメントによる画像記述の生成
- Authors: Ece Takmaz, Sandro Pezzelle, Lisa Beinborn, Raquel Fern\'andez
- Abstract要約: 私たちは、最先端の画像キャプションシステムとして、出発点として捉えています。
言語生産中に記録された人間の視線パターンから情報を利用するモデル変異体を開発した。
実験と分析により、視線による注意を生かして、より良い説明が得られていることを確認した。
- 参考スコア(独自算出の注目度): 6.6358421117698665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When speakers describe an image, they tend to look at objects before
mentioning them. In this paper, we investigate such sequential cross-modal
alignment by modelling the image description generation process
computationally. We take as our starting point a state-of-the-art image
captioning system and develop several model variants that exploit information
from human gaze patterns recorded during language production. In particular, we
propose the first approach to image description generation where visual
processing is modelled $\textit{sequentially}$. Our experiments and analyses
confirm that better descriptions can be obtained by exploiting gaze-driven
attention and shed light on human cognitive processes by comparing different
ways of aligning the gaze modality with language production. We find that
processing gaze data sequentially leads to descriptions that are better aligned
to those produced by speakers, more diverse, and more natural${-}$particularly
when gaze is encoded with a dedicated recurrent component.
- Abstract(参考訳): 話者が画像を記述するとき、それらに言及する前にオブジェクトを見る傾向がある。
本稿では,画像記述生成過程をコンピュータでモデル化することにより,このような逐次的相互アライメントを考察する。
我々は,最先端の画像キャプションシステムの出発点として,言語生成中に記録された人間の視線パターンからの情報を利用するモデル変異をいくつも開発する。
特に,視覚処理を$\textit{sequentially}$でモデル化した画像記述生成への最初のアプローチを提案する。
実験と分析により,視線による注意を生かし,人間の認知過程に光を当てることで,視線モダリティと言語生産との相性を比較することにより,より良い説明が得られることを確認した。
注視データの処理は、話者が生成した記述とより一致し、より多様で、より自然な${-}$(特に、注視が専用の再帰成分で符号化される場合)につながることが判明した。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - Zero-shot Generation of Coherent Storybook from Plain Text Story using
Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。
我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-02-08T06:24:06Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。