論文の概要: aiTPR: Attribute Interaction-Tensor Product Representation for Image
Caption
- arxiv url: http://arxiv.org/abs/2001.09545v1
- Date: Mon, 27 Jan 2020 00:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 07:23:41.436083
- Title: aiTPR: Attribute Interaction-Tensor Product Representation for Image
Caption
- Title(参考訳): aiTPR:画像キャプションのための属性インタラクション-テンソル製品表現
- Authors: Chiranjib Sur
- Abstract要約: 地域視覚的特徴は、特徴に基づく機械の生成能力を高めるが、適切な相互作用の注意力の認識は欠如している。
本研究では,情報収集に有用なAITPR(Attribute Interaction-Tensor Product Representation)を提案する。
- 参考スコア(独自算出の注目度): 9.89901717499058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Region visual features enhance the generative capability of the machines
based on features, however they lack proper interaction attentional perceptions
and thus ends up with biased or uncorrelated sentences or pieces of
misinformation. In this work, we propose Attribute Interaction-Tensor Product
Representation (aiTPR) which is a convenient way of gathering more information
through orthogonal combination and learning the interactions as physical
entities (tensors) and improving the captions. Compared to previous works,
where features are added up to undefined feature spaces, TPR helps in
maintaining sanity in combinations and orthogonality helps in defining familiar
spaces. We have introduced a new concept layer that defines the objects and
also their interactions that can play a crucial role in determination of
different descriptions. The interaction portions have contributed heavily for
better caption quality and has out-performed different previous works on this
domain and MSCOCO dataset. We introduced, for the first time, the notion of
combining regional image features and abstracted interaction likelihood
embedding for image captioning.
- Abstract(参考訳): 地域視覚的特徴は、特徴に基づいて機械の生成能力を高めるが、適切な相互作用の注意力の認識が欠如し、バイアスのある文や非相関的な文や誤情報に終わる。
本稿では,直交結合によりより多くの情報を収集し,物理的実体(テンソル)としてのインタラクションを学習し,キャプションを改善するための便利な方法である属性インタラクションテンソル製品表現(aitpr)を提案する。
未定義の機能空間に機能を追加する以前の研究と比較すると、TPRは相性を維持するのに役立ち、直交性はよく知られた空間を定義するのに役立ちます。
我々は、オブジェクトとその相互作用を定義する新しい概念層を導入し、異なる記述を決定する上で重要な役割を担います。
インタラクション部分はキャプションの品質向上に大きく貢献し、このドメインとMSCOCOデータセットに関する以前の成果よりも優れています。
画像キャプションのための局所的画像特徴と抽象的対話可能性埋め込みを組み合わせるという概念を初めて導入した。
関連論文リスト
- Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Stacked Cross-modal Feature Consolidation Attention Networks for Image
Captioning [1.4337588659482516]
本稿では,高レベルなセマンティック概念と視覚情報を統合するための特徴合成手法を利用する。
画像キャプションのための重畳型クロスモーダル特徴統合(SCFC)アテンションネットワークを提案し,同時にクロスモーダル特徴を集約する。
提案したSCFCは、MSCOCOとFlickr30Kデータセットの一般的な指標から、様々な最先端の画像キャプションベンチマークを上回ります。
論文 参考訳(メタデータ) (2023-02-08T09:15:09Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Multi-modal Text Recognition Networks: Interactive Enhancements between
Visual and Semantic Features [11.48760300147023]
本稿では,MATRN(Multi-Almod Text Recognition Network)と呼ばれる新しい手法を提案する。
MATRNは視覚的特徴対と意味的特徴対を特定し、空間情報を意味的特徴にエンコードする。
実験の結果,MATRNは7つのベンチマークで最先端のパフォーマンスを達成できた。
論文 参考訳(メタデータ) (2021-11-30T10:22:11Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Dual-Level Collaborative Transformer for Image Captioning [126.59298716978577]
2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーショントランス(DLCT)ネットワークを紹介します。
さらに,これらの2つの特徴の直接融合によって生じる意味的雑音に対処するために,局所性制約付きクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-01-16T15:43:17Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。