論文の概要: Decoupled Spatial Temporal Graphs for Generic Visual Grounding
- arxiv url: http://arxiv.org/abs/2103.10191v1
- Date: Thu, 18 Mar 2021 11:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 23:40:45.339827
- Title: Decoupled Spatial Temporal Graphs for Generic Visual Grounding
- Title(参考訳): 空間時間グラフのデカップリングによる視覚的接地
- Authors: Qianyu Feng, Yunchao Wei, Mingming Cheng, Yi Yang
- Abstract要約: この研究は、与えられた表現を満たすすべてのオブジェクトをマイニングすることを目的とした、より一般的な設定、一般的な視覚接地を調査します。
我々は,(1)空間表現と時間表現を分解し,すべての側面の手がかりを収集し,正確な接地を行う,単純かつ効果的なアプローチであるdstgを提案する。
さらに、遠距離ビデオによる参照ケースに挑戦する、新しいビデオデータセットであるGVGについて詳しく述べる。
- 参考スコア(独自算出の注目度): 120.66884671951237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding is a long-lasting problem in vision-language understanding
due to its diversity and complexity. Current practices concentrate mostly on
performing visual grounding in still images or well-trimmed video clips. This
work, on the other hand, investigates into a more general setting, generic
visual grounding, aiming to mine all the objects satisfying the given
expression, which is more challenging yet practical in real-world scenarios.
Importantly, grounding results are expected to accurately localize targets in
both space and time. Whereas, it is tricky to make trade-offs between the
appearance and motion features. In real scenarios, model tends to fail in
distinguishing distractors with similar attributes. Motivated by these
considerations, we propose a simple yet effective approach, named DSTG, which
commits to 1) decomposing the spatial and temporal representations to collect
all-sided cues for precise grounding; 2) enhancing the discriminativeness from
distractors and the temporal consistency with a contrastive learning routing
strategy. We further elaborate a new video dataset, GVG, that consists of
challenging referring cases with far-ranging videos. Empirical experiments well
demonstrate the superiority of DSTG over state-of-the-art on Charades-STA,
ActivityNet-Caption and GVG datasets. Code and dataset will be made available.
- Abstract(参考訳): 視覚的接地は、その多様性と複雑さのために視覚言語理解において長く続く問題である。
現在のプラクティスは、静止画や精巧なビデオクリップで視覚的な接地を実行することに集中しています。
一方、本研究は、与えられた表現を満足するすべてのオブジェクトをマイニングすることを目的として、より一般的な設定である汎用的な視覚グラウンディングを調査します。
重要なことは、目標を空間と時間の両方で正確にローカライズすることが期待されている。
一方、外観と動きの特徴をトレードオフさせることは難しい。
実際のシナリオでは、モデルが類似した属性で注意をそらすことに失敗する傾向がある。
そこで我々は,1) 空間的, 時間的表現を分解して, 正確な接地のために全側面の手がかりを抽出すること, 2) トラスト的学習経路戦略により, 邪魔者からの識別性と時間的一貫性を高めることを提案する。
さらに、遠距離ビデオによる参照ケースに挑戦する、新しいビデオデータセットであるGVGについて詳しく述べる。
実証実験は、Charades-STA、ActivityNet-Caption、GVGデータセットの最先端よりもDSTGの方が優れていることを示している。
コードとデータセットが利用可能になる。
関連論文リスト
- AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - UniVTG: Towards Unified Video-Language Temporal Grounding [52.56732639951834]
Video Temporal Grounding (VTG)は、カスタム言語クエリに従ってビデオのターゲットクリップをグラウンドすることを目的としている。
我々は、UniVTGと呼ばれる多様なVTGラベルとタスクを3方向に沿って統一することを提案する。
統合されたフレームワークのおかげで、大規模な多様なラベルから事前学習する時間的基盤を解き放つことができます。
論文 参考訳(メタデータ) (2023-07-31T14:34:49Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - SAVi++: Towards End-to-End Object-Centric Learning from Real-World
Videos [23.64091569954785]
スロットベースのビデオ表現から深度信号を予測するために訓練されたオブジェクト中心のビデオモデルSAVi++を紹介する。
LiDARから得られたスパースディープ信号を使用することで、SAVi++は現実世界のOpenデータセットで、創発的なオブジェクトセグメンテーションとビデオからのトラッキングを学習することができる。
論文 参考訳(メタデータ) (2022-06-15T18:57:07Z) - Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity
Resolution [0.0]
視覚的接地という課題について考察し, エージェントは, 混み合ったシーンからオブジェクトを抽出し, 自然言語で記述する。
視覚的接地に対する現代の全体論的アプローチは、言語構造を無視し、ジェネリックドメインをカバーするのに苦労する。
実体,属性,空間関係の合成視覚的グラウンド化のための,完全に分離されたモジュラー・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T14:12:32Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。
この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。
構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。
実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文 参考訳(メタデータ) (2020-07-17T08:20:39Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。