論文の概要: Team RUC_AIM3 Technical Report at ActivityNet 2021: Entities Object
Localization
- arxiv url: http://arxiv.org/abs/2106.06138v1
- Date: Fri, 11 Jun 2021 02:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:16:13.197127
- Title: Team RUC_AIM3 Technical Report at ActivityNet 2021: Entities Object
Localization
- Title(参考訳): Team RUC_AIM3 Technical Report at ActivityNet 2021: Entities Object Localization
- Authors: Ludan Ruan (1), Jieting Chen (1), Yuqing Song (1), Shizhe Chen (2),
Qin Jin (1) ((1) Renmin University of China, (2) INRIA)
- Abstract要約: キャプション生成とオブジェクトグラウンド化を2段階に分けて,システム全体の性能向上を図る。
本システムでは,サブタスクIの試験セットにおける72.57の局所化精度と,サブタスクIIの隠れテストセットにおける0.2477のFall_per_sentを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entities Object Localization (EOL) aims to evaluate how grounded or faithful
a description is, which consists of caption generation and object grounding.
Previous works tackle this problem by jointly training the two modules in a
framework, which limits the complexity of each module. Therefore, in this work,
we propose to divide these two modules into two stages and improve them
respectively to boost the whole system performance. For the caption generation,
we propose a Unified Multi-modal Pre-training Model (UMPM) to generate event
descriptions with rich objects for better localization. For the object
grounding, we fine-tune the state-of-the-art detection model MDETR and design a
post processing method to make the grounding results more faithful. Our overall
system achieves the state-of-the-art performances on both sub-tasks in Entities
Object Localization challenge at Activitynet 2021, with 72.57 localization
accuracy on the testing set of sub-task I and 0.2477 F1_all_per_sent on the
hidden testing set of sub-task II.
- Abstract(参考訳): エンティティオブジェクトローカライゼーション(eol)は、キャプションの生成とオブジェクトの接地からなる記述の接地や忠実性を評価することを目的としている。
以前の作業では、各モジュールの複雑さを制限する2つのモジュールをフレームワークで共同でトレーニングすることで、この問題に対処する。
そこで本研究では,これら2つのモジュールを2段階に分割し,システム全体の性能向上を図ることを提案する。
キャプション生成のために,リッチオブジェクトを用いたイベント記述生成のための統合マルチモーダル事前学習モデル(umpm)を提案する。
対象の接地については,最先端検出モデルmdetrを微調整し,接地結果をより忠実にするためのポスト処理法を設計する。
提案システムでは,サブタスクiと0.2477 f1_all_per_sentのテストセット上で72.57のローカライズ精度を持つ,activitynet 2021におけるエンティティオブジェクトローカライゼーションチャレンジにおいて,両方のサブタスクにおける最先端のパフォーマンスを実現している。
関連論文リスト
- Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - Details Make a Difference: Object State-Sensitive Neurorobotic Task Planning [15.03025428687218]
オブジェクトの状態は現在の状態や状態を反映しており、ロボットのタスク計画と操作にとって重要である。
近年,LLM (Large Language Models) とVLM (Vision-Language Models) は,計画生成において顕著な能力を示している。
我々は、事前学習ニューラルネットワークによって強化されたタスク計画エージェントであるObject State-Sensitive Agent (OSSA)を紹介する。
論文 参考訳(メタデータ) (2024-06-14T12:52:42Z) - GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling [89.07386210297373]
GenEARLは、イベントタスク記述を理解するために近代的な生成モデルの力を利用する、トレーニング不要な生成フレームワークである。
GenEARLは、M2E2データセットとSwiGデータセット上のゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
論文 参考訳(メタデータ) (2024-04-07T00:28:13Z) - Few-shot Object Localization [37.347898735345574]
本稿では,Few-Shot Object Localization (FSOL) という新しいタスクを定義する。
限られたサンプルで正確な位置決めを実現することを目的としている。
本課題は、少数のラベル付きサポートサンプルを利用して、対応する画像内のオブジェクトの位置情報をクエリすることで、一般化されたオブジェクトのローカライゼーションを実現する。
実験の結果,FSOLタスクにおけるアプローチの大幅な性能向上が示され,さらなる研究のための効率的なベンチマークが確立された。
論文 参考訳(メタデータ) (2024-03-19T05:50:48Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文 参考訳(メタデータ) (2023-11-14T10:07:52Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Unsupervised Domain Adaptation for Spatio-Temporal Action Localization [69.12982544509427]
S時間動作の局所化はコンピュータビジョンにおいて重要な問題である。
本稿では、エンドツーエンドの教師なしドメイン適応アルゴリズムを提案する。
空間的特徴と時間的特徴を別々にあるいは共同的に適応した場合に,顕著な性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-10-19T04:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。