論文の概要: Visual Commonsense R-CNN
- arxiv url: http://arxiv.org/abs/2002.12204v3
- Date: Mon, 27 Apr 2020 04:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 09:00:13.308891
- Title: Visual Commonsense R-CNN
- Title(参考訳): Visual Commonsense R-CNN
- Authors: Tan Wang, Jianqiang Huang, Hanwang Zhang, Qianru Sun
- Abstract要約: 本稿では,新しい教師なし特徴表現学習手法であるVisual Commonsense Region-based Convolutional Neural Network (VC R-CNN)を提案する。
VC R-CNNは、キャプションやVQAのような高レベルのタスクのための改善された視覚領域エンコーダとして機能する。
我々は、画像キャプション、VQA、VCRの3つの一般的なタスクのモデルにおいて、VC R-CNNの機能を広く適用し、それら全体で一貫したパフォーマンス向上を観察する。
- 参考スコア(独自算出の注目度): 102.5061122013483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel unsupervised feature representation learning method,
Visual Commonsense Region-based Convolutional Neural Network (VC R-CNN), to
serve as an improved visual region encoder for high-level tasks such as
captioning and VQA. Given a set of detected object regions in an image (e.g.,
using Faster R-CNN), like any other unsupervised feature learning methods
(e.g., word2vec), the proxy training objective of VC R-CNN is to predict the
contextual objects of a region. However, they are fundamentally different: the
prediction of VC R-CNN is by using causal intervention: P(Y|do(X)), while
others are by using the conventional likelihood: P(Y|X). This is also the core
reason why VC R-CNN can learn "sense-making" knowledge like chair can be sat --
while not just "common" co-occurrences such as chair is likely to exist if
table is observed. We extensively apply VC R-CNN features in prevailing models
of three popular tasks: Image Captioning, VQA, and VCR, and observe consistent
performance boosts across them, achieving many new state-of-the-arts. Code and
feature are available at https://github.com/Wangt-CN/VC-R-CNN.
- Abstract(参考訳): 本稿では,ビジュアルコモンセンス領域をベースとした畳み込みニューラルネットワーク(VC R-CNN)を用いて,キャプションやVQAといった高レベルタスクの視覚領域エンコーダとして機能する新しい特徴表現学習手法を提案する。
画像中の検出対象領域(例えば、より高速なR-CNN)のセットが、他の教師なし特徴学習方法(例えば、 word2vec)と同様に、VC R-CNNのプロキシトレーニングの目的は、領域のコンテキストオブジェクトを予測することである。
しかし、それらは根本的に異なる: VC R-CNN の予測は因果的介入 P(Y|do(X)) によって行われるが、他のものは従来の可能性 P(Y|X) を用いて行われる。
VC R-CNNが椅子のような「センスメイキング」の知識を学べる中核的な理由でもある。
我々は、画像キャプション、VQA、VCRの3つの一般的なタスクのモデルにおいて、VC R-CNNの機能を広く適用し、それらを一貫したパフォーマンス向上を観察し、多くの新しい最先端を実現する。
コードと機能はhttps://github.com/Wangt-CN/VC-R-CNNで公開されている。
関連論文リスト
- Recurrent Neural Networks for Still Images [0.0]
我々は、RNNが静止画をシーケンスとして解釈することで効果的に処理できることを論じる。
本稿では、画像などの2次元入力に適した新しいRNN設計と、従来の実装よりもメモリ効率が高いBiDirectional RNN(BiRNN)のカスタムバージョンを紹介する。
論文 参考訳(メタデータ) (2024-09-10T06:07:20Z) - RIC-CNN: Rotation-Invariant Coordinate Convolutional Neural Network [56.42518353373004]
回転不変座標変換(RIC-C)と呼ばれる新しい畳み込み演算を提案する。
CNNの標準畳み込み層を対応するRCC-Cに置き換えることで、RCC-CNNを導出することができる。
RIC-CNNはMNISTの回転試験データセット上で最先端の分類を実現することが観察できる。
論文 参考訳(メタデータ) (2022-11-21T19:27:02Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Towards a General Purpose CNN for Long Range Dependencies in
$\mathrm{N}$D [49.57261544331683]
構造変化のない任意の解像度,次元,長さのタスクに対して,連続的な畳み込みカーネルを備えた単一CNNアーキテクチャを提案する。
1$mathrmD$)とビジュアルデータ(2$mathrmD$)の幅広いタスクに同じCCNNを適用することで、我々のアプローチの汎用性を示す。
私たちのCCNNは競争力があり、検討されたすべてのタスクで現在の最先端を上回ります。
論文 参考訳(メタデータ) (2022-06-07T15:48:02Z) - Rethinking Nearest Neighbors for Visual Classification [56.00783095670361]
k-NNは、トレーニングセット内のテストイメージとトップk隣人間の距離を集約する遅延学習手法である。
我々は,教師付き手法と自己監督型手法のいずれでも,事前学習した視覚表現を持つk-NNを2つのステップで採用する。
本研究は,幅広い分類タスクに関する広範な実験により,k-NN統合の汎用性と柔軟性を明らかにした。
論文 参考訳(メタデータ) (2021-12-15T20:15:01Z) - Dynamic Gesture Recognition [0.0]
従来のコンピュータビジョンアルゴリズムの代わりに、機械学習を使って画像や動画を分類することができる。
このプロジェクトの目的は、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の共生を構築することである。
論文 参考訳(メタデータ) (2021-09-20T09:45:29Z) - Recurrent Neural Network from Adder's Perspective: Carry-lookahead RNN [9.20540910698296]
本稿では、リカレントニューラルネットワーク(RNN)とシリアル加算器の類似性について論じる。
carry-lookahead adder にインスパイアされ、RNN に carry-lookahead モジュールを導入し、RNN の並列実行を可能にする。
論文 参考訳(メタデータ) (2021-06-22T12:28:33Z) - Multichannel CNN with Attention for Text Classification [5.1545224296246275]
本稿では,テキスト分類のための注意型マルチチャネル畳み込みニューラルネットワーク(AMCNN)を提案する。
AMCNNは、単語の歴史と将来の情報を高次元表現にエンコードするために双方向長短期記憶を使用する。
ベンチマークデータセットの実験結果は、AMCNNが最先端の手法よりも優れたパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2020-06-29T16:37:51Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。