論文の概要: Detection and Description of Change in Visual Streams
- arxiv url: http://arxiv.org/abs/2003.12633v2
- Date: Thu, 9 Apr 2020 20:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 05:21:04.268286
- Title: Detection and Description of Change in Visual Streams
- Title(参考訳): ビジュアルストリームにおける変化の検出と記述
- Authors: Davis Gilton, Ruotian Luo, Rebecca Willett, Greg Shakhnarovich
- Abstract要約: 本研究では,変化の自然言語記述を生成するために,ラベルのないデータをトレーニングに組み込む新しい手法を提案する。
また、視覚的ストリームの変化時期を推定するフレームワークも開発しています。
学習した表現を変化証拠と認識された変化の一貫性に使用し、それらを正規化グラフカットに基づく変化検出器に組み合わせる。
- 参考スコア(独自算出の注目度): 20.62923173347949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a framework for the analysis of changes in visual
streams: ordered sequences of images, possibly separated by significant time
gaps. We propose a new approach to incorporating unlabeled data into training
to generate natural language descriptions of change. We also develop a
framework for estimating the time of change in visual stream. We use learned
representations for change evidence and consistency of perceived change, and
combine these in a regularized graph cut based change detector. Experimental
evaluation on visual stream datasets, which we release as part of our
contribution, shows that representation learning driven by natural language
descriptions significantly improves change detection accuracy, compared to
methods that do not rely on language.
- Abstract(参考訳): 本稿では,視覚的ストリームの変化を分析するための枠組みについて述べる。
本稿では,変化の自然言語記述を生成するための学習にラベルのないデータを組み込む新しい手法を提案する。
また、視覚的ストリームの変化時期を推定するフレームワークも開発しています。
学習した表現を変化証拠と認識された変化の一貫性に使い、それらを正規化グラフカットに基づく変化検出器に組み合わせる。
筆者らがコントリビューションの一部としてリリースしたビジュアルストリームデータセットの実験的評価から,自然言語記述による表現学習は,言語に依存しない手法と比較して,変化検出精度を大幅に向上することが示された。
関連論文リスト
- Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning [49.24306593078429]
KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像変換キャプションのための新しいフレームワークを提案する。
KCFIは、バイテンポラルリモートセンシング画像特徴を抽出するViTsエンコーダと、重要な変化領域を識別するキー特徴知覚器と、画素レベルの変化検出デコーダとを含む。
提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法との比較を行った。
論文 参考訳(メタデータ) (2024-09-19T09:33:33Z) - MS-Former: Memory-Supported Transformer for Weakly Supervised Change
Detection with Patch-Level Annotations [50.79913333804232]
弱い教師付き変化検出のためのメモリ支援トランス (MS-Former) を提案する。
MS-Former は双方向注意ブロック (BAB) とパッチレベルの監視スキーム (PSS) から構成される。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-16T09:57:29Z) - VcT: Visual change Transformer for Remote Sensing Image Change Detection [16.778418602705287]
本稿では,視覚変化検出問題に対する新しい視覚変化変換器(VcT)モデルを提案する。
トップKの信頼できるトークンは、クラスタリングアルゴリズムを使用してマップからマイニングし、洗練することができる。
複数のベンチマークデータセットに対する大規模な実験により,提案したVcTモデルの有効性が検証された。
論文 参考訳(メタデータ) (2023-10-17T17:25:31Z) - Neighborhood Contrastive Transformer for Change Captioning [80.10836469177185]
本研究では,異なる環境下での様々な変化に対するモデルの知覚能力を向上させるために,近傍のコントラスト変換器を提案する。
提案手法は,変化シナリオの異なる3つの公開データセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:39:54Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Finding It at Another Side: A Viewpoint-Adapted Matching Encoder for
Change Captioning [41.044241265804125]
本稿では,変化字幕タスクにおける意味的変化と視点的変化を明確に区別する新しいビジュアルエンコーダを提案する。
また,言語評価報酬を直接微調整する新たな強化学習手法を提案する。
提案手法は,Spot-the-DiffデータセットとCLEVR-Changeデータセットの両方において,最先端のアプローチよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-09-30T00:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。