論文の概要: Sparse Graph to Sequence Learning for Vision Conditioned Long Textual
Sequence Generation
- arxiv url: http://arxiv.org/abs/2007.06077v1
- Date: Sun, 12 Jul 2020 19:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 05:12:09.261758
- Title: Sparse Graph to Sequence Learning for Vision Conditioned Long Textual
Sequence Generation
- Title(参考訳): 視覚条件付き長文列生成のためのスパースグラフとシーケンス学習
- Authors: Aditya Mogadala and Marius Mosbach and Dietrich Klakow
- Abstract要約: グラフを符号化し、シーケンスを復号化するためのスパースグラフ列列変換器(S GST)を導入する。
ベンチマーク画像段落データセットを用いて行った実験の結果,提案手法はCIDErの評価値に対して13.3%の改善を達成できた。
- 参考スコア(独自算出の注目度): 20.24851041248274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating longer textual sequences when conditioned on the visual
information is an interesting problem to explore. The challenge here
proliferate over the standard vision conditioned sentence-level generation
(e.g., image or video captioning) as it requires to produce a brief and
coherent story describing the visual content. In this paper, we mask this
Vision-to-Sequence as Graph-to-Sequence learning problem and approach it with
the Transformer architecture. To be specific, we introduce Sparse
Graph-to-Sequence Transformer (SGST) for encoding the graph and decoding a
sequence. The encoder aims to directly encode graph-level semantics, while the
decoder is used to generate longer sequences. Experiments conducted with the
benchmark image paragraph dataset show that our proposed achieve 13.3%
improvement on the CIDEr evaluation measure when comparing to the previous
state-of-the-art approach.
- Abstract(参考訳): 視覚情報に基づいて長いテキストシーケンスを生成することは興味深い問題である。
ここでの課題は、視覚内容を記述する簡潔で一貫性のあるストーリーを作成するのに必要な、標準的な視覚条件付き文レベルの生成(例えば、画像やビデオキャプション)にまたがる。
本稿では,このビジョン・トゥ・シーケンスをグラフ・トゥ・シーケンス学習問題としてカバーし,トランスフォーマティブ・アーキテクチャを用いてアプローチする。
具体的には、SGST(Sparse Graph-to-Sequence Transformer)を導入し、グラフの符号化とシーケンスの復号を行う。
エンコーダはグラフレベルのセマンティクスを直接エンコードすることを目的としており、デコーダは長いシーケンスを生成するために使用される。
ベンチマーク画像パラグラフデータセットを用いて行った実験により,提案手法が従来の最先端手法と比較した場合,cider評価尺度を13.3%改善できることが確認された。
関連論文リスト
- From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - KENGIC: KEyword-driven and N-Gram Graph based Image Captioning [0.988326119238361]
キーワード駆動とN-gramグラフを用いた画像キャプション(KENGIC)
モデルは、与えられたテキストコーパスにあるように、重なり合うn-gramを通してノードを接続することで、有向グラフを形成するように設計されている。
このアプローチの分析は、ペア環境で訓練された現在のトップ実行キャプションジェネレータの背後にある生成プロセスにも光を当てることができた。
論文 参考訳(メタデータ) (2023-02-07T19:48:55Z) - Character-Centric Story Visualization via Visual Planning and Token
Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。
一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。
本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文 参考訳(メタデータ) (2022-10-16T06:50:39Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - GN-Transformer: Fusing Sequence and Graph Representation for Improved
Code Summarization [0.0]
融合シーケンスとグラフのモダリティに基づいてエンドツーエンドの学習を行う新しい手法であるGN-Transformerを提案する。
提案手法は,2つのコード要約データセットと3つの自動コード要約メトリクスにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-17T02:51:37Z) - GraphPB: Graphical Representations of Prosody Boundary in Speech
Synthesis [23.836992815219904]
本稿では,中国語音声合成作業における韻律境界(GraphPB)のグラフィカルな表現手法を提案する。
グラフ埋め込みのノードは韻律語で形成され、エッジは他の韻律境界によって形成される。
逐次情報をグラフ・ツー・シーケンス・テキスト・音声モデルに組み込む2つの手法が提案されている。
論文 参考訳(メタデータ) (2020-12-03T03:34:05Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。