論文の概要: Video Object Grounding using Semantic Roles in Language Description
- arxiv url: http://arxiv.org/abs/2003.10606v1
- Date: Tue, 24 Mar 2020 01:31:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 08:14:36.615559
- Title: Video Object Grounding using Semantic Roles in Language Description
- Title(参考訳): 言語記述における意味的役割を用いた映像オブジェクトの接地
- Authors: Arka Sadhu, Kan Chen, Ram Nevatia
- Abstract要約: ビデオオブジェクトグラウンドリング(VOG)におけるオブジェクト関係の役割について検討する。
本稿では,複数モーダルオブジェクト間の関係を,相対的な位置エンコーディングによる自己アテンションによって符号化する新しいフレームワークVOGNetを提案する。
我々のVOGNetは、競争のベースラインをかなり上回っている。
- 参考スコア(独自算出の注目度): 39.36113549406192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the task of Video Object Grounding (VOG), which grounds objects in
videos referred to in natural language descriptions. Previous methods apply
image grounding based algorithms to address VOG, fail to explore the object
relation information and suffer from limited generalization. Here, we
investigate the role of object relations in VOG and propose a novel framework
VOGNet to encode multi-modal object relations via self-attention with relative
position encoding. To evaluate VOGNet, we propose novel contrasting sampling
methods to generate more challenging grounding input samples, and construct a
new dataset called ActivityNet-SRL (ASRL) based on existing caption and
grounding datasets. Experiments on ASRL validate the need of encoding object
relations in VOG, and our VOGNet outperforms competitive baselines by a
significant margin.
- Abstract(参考訳): 自然言語記述で参照されるビデオのオブジェクトを基盤とするvog(video object grounding)のタスクについて検討する。
従来の方法では、VOGに対処するために画像グラウンドベースアルゴリズムを適用し、オブジェクト関係情報の探索に失敗し、限定的な一般化に苦しむ。
本稿では、VOGにおけるオブジェクト関係の役割を考察し、相対的な位置符号化による自己アテンションによるマルチモーダルオブジェクト関係を符号化する新しいフレームワークVOGNetを提案する。
VOGNetを評価するために,新たなコントラストサンプリング手法を提案し,既存のキャプションとグラウンドデータセットに基づいて,ActivityNet-SRL(ASRL)と呼ばれる新しいデータセットを構築した。
ASRLの実験では、VOGにおけるオブジェクト関係の符号化の必要性が検証され、VOGNetは競争ベースラインをかなり上回っている。
関連論文リスト
- EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote
Sensing Visual Question Answering [11.37120215795946]
本研究では,多モードマルチタスクVQAデータセット(EarthVQA)を開発した。
EarthVQAデータセットには6000の画像、対応するセマンティックマスク、都市と農村のガバナンス要件を組み込んだ208,593のQAペアが含まれている。
本稿では,オブジェクト中心の方法でVQAを進めるためのセマンティックオブジェクト認識フレームワーク(SOBA)を提案する。
論文 参考訳(メタデータ) (2023-12-19T15:11:32Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Dense Video Object Captioning from Disjoint Supervision [74.29564964727813]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
我々のモデルはエンドツーエンドで訓練されており、空間的位置決め、追跡、キャプションのための異なるモジュールで構成されている。
我々のモデルは、VidSTGとVLNに基づく空間接地のための、最先端の専用モデルよりも優れています。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Instance Relation Graph Guided Source-Free Domain Adaptive Object
Detection [79.89082006155135]
教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、ドメインシフトの問題に取り組むための効果的なアプローチである。
UDAメソッドは、ターゲットドメインの一般化を改善するために、ソースとターゲット表現を整列させようとする。
Source-Free Adaptation Domain (SFDA)設定は、ソースデータへのアクセスを必要とせずに、ターゲットドメインに対してソーストレーニングされたモデルを適用することで、これらの懸念を軽減することを目的としている。
論文 参考訳(メタデータ) (2022-03-29T17:50:43Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - ClawCraneNet: Leveraging Object-level Relation for Text-based Video
Segmentation [47.7867284770227]
テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。
言語指導でオブジェクトを人間に分割する方法を模倣することで、新しいトップダウンアプローチを導入する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-03-19T09:31:08Z) - RefVOS: A Closer Look at Referring Expressions for Video Object
Segmentation [8.80595950124721]
我々は,新しいニューラルネットワークを用いて,言語誘導型VOSにおける言語誘導型画像セグメンテーションの結果と技術結果の状態を解析する。
本研究は,タスクの大きな課題が動作や静的動作の理解に関連していることを示唆する。
論文 参考訳(メタデータ) (2020-10-01T09:10:53Z) - Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。
この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。
構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。
実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文 参考訳(メタデータ) (2020-07-17T08:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。