論文の概要: Bypass Network for Semantics Driven Image Paragraph Captioning
- arxiv url: http://arxiv.org/abs/2206.10059v1
- Date: Tue, 21 Jun 2022 00:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 16:56:12.634685
- Title: Bypass Network for Semantics Driven Image Paragraph Captioning
- Title(参考訳): セマンティクス駆動画像段落キャプションのためのバイパスネットワーク
- Authors: Qi Zheng, Chaoyue Wang, Dadong Wang
- Abstract要約: Image paragraph paragraphingは、与えられた画像を一連の一貫性のある文で記述することを目的としている。
既存のほとんどの手法は、先行する文からトピックベクトルを動的に推論するトピック遷移を通じてコヒーレンスをモデル化する。
本稿では,先行文のセマンティクスと言語構文を個別にモデル化するバイパスネットワークを提案する。
- 参考スコア(独自算出の注目度): 12.743882133781602
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image paragraph captioning aims to describe a given image with a sequence of
coherent sentences. Most existing methods model the coherence through the topic
transition that dynamically infers a topic vector from preceding sentences.
However, these methods still suffer from immediate or delayed repetitions in
generated paragraphs because (i) the entanglement of syntax and semantics
distracts the topic vector from attending pertinent visual regions; (ii) there
are few constraints or rewards for learning long-range transitions. In this
paper, we propose a bypass network that separately models semantics and
linguistic syntax of preceding sentences. Specifically, the proposed model
consists of two main modules, i.e. a topic transition module and a sentence
generation module. The former takes previous semantic vectors as queries and
applies attention mechanism on regional features to acquire the next topic
vector, which reduces immediate repetition by eliminating linguistics. The
latter decodes the topic vector and the preceding syntax state to produce the
following sentence. To further reduce delayed repetition in generated
paragraphs, we devise a replacement-based reward for the REINFORCE training.
Comprehensive experiments on the widely used benchmark demonstrate the
superiority of the proposed model over the state of the art for coherence while
maintaining high accuracy.
- Abstract(参考訳): 画像段落キャプションは、与えられた画像を一連のコヒーレントな文で表現することを目的としている。
既存のほとんどのメソッドは、前の文からトピックベクトルを動的に推論するトピック遷移を通してコヒーレンスをモデル化する。
しかし、これらの手法は、生成項の即時又は遅れた繰り返しに悩まされている。
(i)構文と意味論の絡み合いは、話題ベクトルが関連する視覚領域に参加するのを邪魔する。
(ii)長距離遷移を学ぶための制約や報酬は少ない。
本稿では,先行文の意味論と言語構文を別々にモデル化するバイパスネットワークを提案する。
具体的には、提案モデルはトピック遷移モジュールと文生成モジュールという2つの主要なモジュールから構成されている。
前者は、以前の意味ベクトルをクエリとして、地域の特徴に注意を向けて次の話題ベクトルを取得する。
後者は、トピックベクトルと先行構文状態をデコードして次の文を生成する。
生成した段落における遅延反復を更に削減するため,強化訓練に対する代替報酬を考案する。
広範に使用されているベンチマークに関する総合的な実験は、高い精度を維持しながらコヒーレンスのための技術よりも提案されたモデルの方が優れていることを示す。
関連論文リスト
- Self-Adaptive Reconstruction with Contrastive Learning for Unsupervised
Sentence Embeddings [24.255946996327104]
教師なし文埋め込みタスクは、文を意味ベクトル表現に変換することを目的としている。
事前訓練された言語モデルにおけるトークンバイアスのため、モデルは文中のきめ細かいセマンティクスをキャプチャできない。
本稿では,新たな自己適応型コントラスト文埋め込みフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:28:31Z) - On the Robustness of Text Vectorizers [9.904746542801838]
自然言語処理では、モデルは通常第一の埋め込み層を含み、トークンの列をベクトル表現に変換する。
連続的な入力の変化に対する堅牢性はよく理解されているが、離散的な変化を考慮すると、状況は明確ではない。
我々の研究は、連結、TF-IDF、段落ベクトル(doc2vec)のような一般的な埋め込みスキームがハミング距離に関してH"older"やLipschitzの感覚において堅牢性を示すことを正式に証明している。
論文 参考訳(メタデータ) (2023-03-09T16:37:37Z) - Semantic Operator Prediction and Applications [0.0]
意味解析におけるQDMRフォーマリズムは、シーケンスモデルとシーケンスモデルを用いて実装されるが、文の単語の表現として音声(POS)の一部のみを使用して、トレーニングを可能な限りシンプルかつ高速に行う。
論文 参考訳(メタデータ) (2023-01-01T13:20:57Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。
TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文 参考訳(メタデータ) (2021-10-27T09:07:14Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z) - Multi-Step Inference for Reasoning Over Paragraphs [95.91527524872832]
テキスト上の複雑な推論には、自由形式の述語と論理的な連結体を理解し、連鎖する必要がある。
本稿では,ニューラルネットワークを連想させる構成モデルを提案する。
論文 参考訳(メタデータ) (2020-04-06T21:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。