論文の概要: Recurrent Relational Memory Network for Unsupervised Image Captioning
- arxiv url: http://arxiv.org/abs/2006.13611v1
- Date: Wed, 24 Jun 2020 10:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:00:34.325052
- Title: Recurrent Relational Memory Network for Unsupervised Image Captioning
- Title(参考訳): 教師なし画像キャプションのためのリカレントリレーショナルメモリネットワーク
- Authors: Dan Guo, Yang Wang, Peipei Song, Meng Wang
- Abstract要約: アノテーションのない教師なしのイメージキャプションは、コンピュータビジョンの課題である。
本稿では,新しいGANモデルではなく,新しいメモリベースネットワークを提案する。
我々の解は、GANベースの手法よりも学習可能なパラメータが少なく、計算効率も高い。
- 参考スコア(独自算出の注目度): 26.802700428311745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised image captioning with no annotations is an emerging challenge in
computer vision, where the existing arts usually adopt GAN (Generative
Adversarial Networks) models. In this paper, we propose a novel memory-based
network rather than GAN, named Recurrent Relational Memory Network ($R^2M$).
Unlike complicated and sensitive adversarial learning that non-ideally performs
for long sentence generation, $R^2M$ implements a concepts-to-sentence memory
translator through two-stage memory mechanisms: fusion and recurrent memories,
correlating the relational reasoning between common visual concepts and the
generated words for long periods. $R^2M$ encodes visual context through
unsupervised training on images, while enabling the memory to learn from
irrelevant textual corpus via supervised fashion. Our solution enjoys less
learnable parameters and higher computational efficiency than GAN-based
methods, which heavily bear parameter sensitivity. We experimentally validate
the superiority of $R^2M$ than state-of-the-arts on all benchmark datasets.
- Abstract(参考訳): 注釈のない教師なしの画像キャプションは、既存のアートがgan(generative adversarial networks)モデルを採用するコンピュータビジョンの新たな課題である。
本稿では,ganではなく,新しいメモリベースネットワークであるrecurrent relational memory network(r^2m$)を提案する。
r^2m$は、非理想的に長文生成のために実行される複雑で繊細な逆学習とは異なり、2段階記憶機構:融合記憶と再帰記憶、共通の視覚概念と生成された単語の間の関係推論を長い期間関連付ける。
R^2M$は、教師なしのイメージトレーニングを通じて視覚的コンテキストを符号化し、教師なしのスタイルで無関係なテキストコーパスから学習することを可能にする。
我々の解は、パラメータの感度が高いGAN法よりも学習可能なパラメータが少なく、計算効率も高い。
我々は,すべてのベンチマークデータセットにおいて,最新技術よりも$r^2m$の優位性を実験的に検証した。
関連論文リスト
- $\text{Memory}^3$: Language Modeling with Explicit Memory [22.572376536612015]
我々は、大言語モデル(LLM)に明示的なメモリ、モデルパラメータよりも安いメモリフォーマット、テキスト検索拡張生成(RAG)を装備する。
予備的な概念実証として, 2.4B LLM をゼロからトレーニングし, より大きな LLM モデルやRAG モデルよりも優れた性能を実現する。
本稿では,知識の外部化を支援するメモリ回路理論を導入し,記憶をトラクタブルにするメモリスペーサー化機構を含む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T11:07:23Z) - HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。
HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Pre-computed memory or on-the-fly encoding? A hybrid approach to
retrieval augmentation makes the most of your compute [23.85786594315147]
フュージョン・イン・デコーダ(Fusion-in-Decoder)は強力な技術であり、様々な知識集約的なタスクにアートの状態を設定する。
テキストコーパスをメモリにプリエンコードし、密度の高い表現を直接取得することで、このコストを回避する作業もある。
両極間のハイブリッドであるLUMENを提案し,検索表現の大部分を事前計算し,符号化をオンザフライで完了させる。
LUMENは、FiDよりもはるかに安価で、複数の質問応答タスクにおいて純粋メモリを著しく上回り、任意の計算予算において両者を上回ります。
論文 参考訳(メタデータ) (2023-01-25T07:55:45Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z) - Distributed Associative Memory Network with Memory Refreshing Loss [5.5792083698526405]
メモリリフレッシングロス(MRL)を用いた分散連想メモリアーキテクチャ(DAM)について紹介する。
人間の脳の動作にインスパイアされた私たちのフレームワークは、複数のメモリブロックにまたがる分散表現でデータをエンコードします。
MRLにより、記憶されたメモリコンテンツから入力データを再生することにより、MANNは、入力データとタスク目的との関連性を強化することができる。
論文 参考訳(メタデータ) (2020-07-21T07:34:33Z) - IMRAM: Iterative Matching with Recurrent Attention Memory for
Cross-Modal Image-Text Retrieval [105.77562776008459]
既存の手法は、注意機構を利用して、そのような対応をきめ細かな方法で探索する。
既存の手法でこのような高度な対応を最適に捉えるのは難しいかもしれない。
本稿では,複数段階のアライメントで対応を捉えるIMRAM法を提案する。
論文 参考訳(メタデータ) (2020-03-08T12:24:41Z) - Self-Attentive Associative Memory [69.40038844695917]
我々は、個々の体験(記憶)とその発生する関係(関連記憶)の記憶を分離することを提案する。
機械学習タスクの多様性において,提案した2メモリモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2020-02-10T03:27:48Z) - MEMO: A Deep Network for Flexible Combination of Episodic Memories [16.362284088767456]
MEMOは長い距離で推論できる能力を備えたアーキテクチャである。
まず、外部メモリに格納されたメモリと、これらの事実を外部メモリに格納するアイテムを分離する。
第二に、適応的な検索機構を利用し、応答が生成される前に「メモリホップ」の変動数を許容する。
論文 参考訳(メタデータ) (2020-01-29T15:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。