論文の概要: Video Object Grounding using Semantic Roles in Language Description
- arxiv url: http://arxiv.org/abs/2003.10606v1
- Date: Tue, 24 Mar 2020 01:31:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 08:14:36.615559
- Title: Video Object Grounding using Semantic Roles in Language Description
- Title(参考訳): 言語記述における意味的役割を用いた映像オブジェクトの接地
- Authors: Arka Sadhu, Kan Chen, Ram Nevatia
- Abstract要約: ビデオオブジェクトグラウンドリング(VOG)におけるオブジェクト関係の役割について検討する。
本稿では,複数モーダルオブジェクト間の関係を,相対的な位置エンコーディングによる自己アテンションによって符号化する新しいフレームワークVOGNetを提案する。
我々のVOGNetは、競争のベースラインをかなり上回っている。
- 参考スコア(独自算出の注目度): 39.36113549406192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the task of Video Object Grounding (VOG), which grounds objects in
videos referred to in natural language descriptions. Previous methods apply
image grounding based algorithms to address VOG, fail to explore the object
relation information and suffer from limited generalization. Here, we
investigate the role of object relations in VOG and propose a novel framework
VOGNet to encode multi-modal object relations via self-attention with relative
position encoding. To evaluate VOGNet, we propose novel contrasting sampling
methods to generate more challenging grounding input samples, and construct a
new dataset called ActivityNet-SRL (ASRL) based on existing caption and
grounding datasets. Experiments on ASRL validate the need of encoding object
relations in VOG, and our VOGNet outperforms competitive baselines by a
significant margin.
- Abstract(参考訳): 自然言語記述で参照されるビデオのオブジェクトを基盤とするvog(video object grounding)のタスクについて検討する。
従来の方法では、VOGに対処するために画像グラウンドベースアルゴリズムを適用し、オブジェクト関係情報の探索に失敗し、限定的な一般化に苦しむ。
本稿では、VOGにおけるオブジェクト関係の役割を考察し、相対的な位置符号化による自己アテンションによるマルチモーダルオブジェクト関係を符号化する新しいフレームワークVOGNetを提案する。
VOGNetを評価するために,新たなコントラストサンプリング手法を提案し,既存のキャプションとグラウンドデータセットに基づいて,ActivityNet-SRL(ASRL)と呼ばれる新しいデータセットを構築した。
ASRLの実験では、VOGにおけるオブジェクト関係の符号化の必要性が検証され、VOGNetは競争ベースラインをかなり上回っている。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。
D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。
また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文 参考訳(メタデータ) (2024-09-03T16:30:48Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Instance Relation Graph Guided Source-Free Domain Adaptive Object
Detection [79.89082006155135]
教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、ドメインシフトの問題に取り組むための効果的なアプローチである。
UDAメソッドは、ターゲットドメインの一般化を改善するために、ソースとターゲット表現を整列させようとする。
Source-Free Adaptation Domain (SFDA)設定は、ソースデータへのアクセスを必要とせずに、ターゲットドメインに対してソーストレーニングされたモデルを適用することで、これらの懸念を軽減することを目的としている。
論文 参考訳(メタデータ) (2022-03-29T17:50:43Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - RefVOS: A Closer Look at Referring Expressions for Video Object
Segmentation [8.80595950124721]
我々は,新しいニューラルネットワークを用いて,言語誘導型VOSにおける言語誘導型画像セグメンテーションの結果と技術結果の状態を解析する。
本研究は,タスクの大きな課題が動作や静的動作の理解に関連していることを示唆する。
論文 参考訳(メタデータ) (2020-10-01T09:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。