論文の概要: MRRC: Multiple Role Representation Crossover Interpretation for Image
Captioning With R-CNN Feature Distribution Composition (FDC)
- arxiv url: http://arxiv.org/abs/2002.06436v1
- Date: Sat, 15 Feb 2020 19:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 22:52:03.175636
- Title: MRRC: Multiple Role Representation Crossover Interpretation for Image
Captioning With R-CNN Feature Distribution Composition (FDC)
- Title(参考訳): MRRC:R-CNN特徴分布構成を用いた画像キャプションのための多役表現クロスオーバー解釈
- Authors: Chiranjib Sur
- Abstract要約: 研究はコンテキストの組み合わせのための新しい概念を提供する。
オブジェクト、アクティビティ、イベントの等価性として視覚的特徴を扱う多くのアプリケーションに影響を与えるだろう。
- 参考スコア(独自算出の注目度): 9.89901717499058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While image captioning through machines requires structured learning and
basis for interpretation, improvement requires multiple context understanding
and processing in a meaningful way. This research will provide a novel concept
for context combination and will impact many applications to deal visual
features as an equivalence of descriptions of objects, activities and events.
There are three components of our architecture: Feature Distribution
Composition (FDC) Layer Attention, Multiple Role Representation Crossover
(MRRC) Attention Layer and the Language Decoder. FDC Layer Attention helps in
generating the weighted attention from RCNN features, MRRC Attention Layer acts
as intermediate representation processing and helps in generating the next word
attention, while Language Decoder helps in estimation of the likelihood for the
next probable word in the sentence. We demonstrated effectiveness of FDC, MRRC,
regional object feature attention and reinforcement learning for effective
learning to generate better captions from images. The performance of our model
enhanced previous performances by 35.3\% and created a new standard and theory
for representation generation based on logic, better interpretability and
contexts.
- Abstract(参考訳): 機械による画像キャプションは構造化学習と解釈の基礎を必要とするが、改善には意味のある方法で複数のコンテキスト理解と処理が必要である。
本研究は、コンテキストの組み合わせに関する新しい概念を提供し、オブジェクト、アクティビティ、イベントの記述の等価性として視覚的特徴を扱う多くのアプリケーションに影響を与える。
アーキテクチャには、FDC(Feature Distribution composition)層アテンション、MRRC(Multiple Role Representation Crossover)層アテンション層、Language Decoderという3つのコンポーネントがあります。
FDC Layer AttentionはRCNNの機能から重み付けされた注意を生成するのに役立ち、MRRC Attention Layerは中間表現処理として機能し、次の単語の注意を生成するのに役立ち、Language Decoderは文中の次の可能な単語の可能性を推定するのに役立ちます。
画像から字幕を生成するための効果的な学習に, fdc, mrrc, regional object feature attention, reinforcement learningの有効性を実証した。
このモデルの性能は以前の性能を35.3\%向上させ、論理に基づく表現生成の新しい標準と理論を生み出し、解釈性と文脈を改善した。
関連論文リスト
- Meta-Exploiting Frequency Prior for Cross-Domain Few-Shot Learning [86.99944014645322]
クロスドメインなFew-Shot学習のための新しいフレームワーク,Meta-Exploiting Frequency Priorを導入する。
各クエリ画像を高周波および低周波成分に分解し,特徴埋め込みネットワークに並列に組み込む。
本フレームワークは、複数のドメイン間数ショット学習ベンチマークにおいて、最先端の新たな結果を確立する。
論文 参考訳(メタデータ) (2024-11-03T04:02:35Z) - HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - Hierarchical Aligned Multimodal Learning for NER on Tweet Posts [12.632808712127291]
マルチモーダルなエンティティ認識(MNER)が注目されている。
画像とテキストのシーケンスを動的に調整する新しい手法を提案する。
2つのオープンデータセットで実験を行い、その結果と詳細な分析により、我々のモデルの利点を実証した。
論文 参考訳(メタデータ) (2023-05-15T06:14:36Z) - Stacked Cross-modal Feature Consolidation Attention Networks for Image
Captioning [1.4337588659482516]
本稿では,高レベルなセマンティック概念と視覚情報を統合するための特徴合成手法を利用する。
画像キャプションのための重畳型クロスモーダル特徴統合(SCFC)アテンションネットワークを提案し,同時にクロスモーダル特徴を集約する。
提案したSCFCは、MSCOCOとFlickr30Kデータセットの一般的な指標から、様々な最先端の画像キャプションベンチマークを上回ります。
論文 参考訳(メタデータ) (2023-02-08T09:15:09Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。