Fugu-MT 論文翻訳(概要): Context-Guided Spatio-Temporal Video Grounding

論文の概要: Context-Guided Spatio-Temporal Video Grounding

arxiv url: http://arxiv.org/abs/2401.01578v1
Date: Wed, 3 Jan 2024 07:05:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-04 15:00:18.620373
Title: Context-Guided Spatio-Temporal Video Grounding
Title（参考訳）: コンテクストガイド付き時空間ビデオグラウンド
Authors: Xin Gu, Heng Fan, Yan Huang, Tiejian Luo, Libo Zhang
Abstract要約: 本稿では,ビデオ中のオブジェクトの識別インスタンスコンテキストを抽出する,文脈誘導型STVG(CG-STVG)を提案する。 CG-STVGは、テキストクエリにおけるオブジェクト情報と、より正確なターゲットローカライゼーションのためのマイニングされたインスタンス視覚コンテキストからのガイダンスを楽しみます。 HCSTVG-v1/-v2 と VidSTG の3つのベンチマーク実験において、CG-STVG は m_tIoU と m_vIoU で新しい最先端を設定できる。
参考スコア（独自算出の注目度）: 22.839160907707885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spatio-temporal video grounding (or STVG) task aims at locating a spatio-temporal tube for a specific instance given a text query. Despite advancements, current methods easily suffer the distractors or heavy object appearance variations in videos due to insufficient object information from the text, leading to degradation. Addressing this, we propose a novel framework, context-guided STVG (CG-STVG), which mines discriminative instance context for object in videos and applies it as a supplementary guidance for target localization. The key of CG-STVG lies in two specially designed modules, including instance context generation (ICG), which focuses on discovering visual context information (in both appearance and motion) of the instance, and instance context refinement (ICR), which aims to improve the instance context from ICG by eliminating irrelevant or even harmful information from the context. During grounding, ICG, together with ICR, are deployed at each decoding stage of a Transformer architecture for instance context learning. Particularly, instance context learned from one decoding stage is fed to the next stage, and leveraged as a guidance containing rich and discriminative object feature to enhance the target-awareness in decoding feature, which conversely benefits generating better new instance context for improving localization finally. Compared to existing methods, CG-STVG enjoys object information in text query and guidance from mined instance visual context for more accurate target localization. In our experiments on three benchmarks, including HCSTVG-v1/-v2 and VidSTG, CG-STVG sets new state-of-the-arts in m_tIoU and m_vIoU on all of them, showing its efficacy. The code will be released at https://github.com/HengLan/CGSTVG.
Abstract（参考訳）: Spatio-temporal video grounding(STVG)タスクは、テキストクエリが与えられた特定のインスタンスに対して、spatio-temporal tubeを特定することを目的としている。進歩にもかかわらず、現行の手法では、テキストからのオブジェクト情報が不十分なため、ビデオの歪みや重いオブジェクトの出現のばらつきに容易に悩まされ、劣化する。そこで本稿では,ビデオ中のオブジェクトの識別的インスタンスコンテキストをマイニングし,ターゲットローカライゼーションのための補助的ガイダンスとして適用する,コンテキストガイド付きstvg(cg-stvg)を提案する。 CG-STVGの鍵となるのは、インスタンスの視覚的コンテキスト情報(外観と動きの両方)の発見に焦点を当てたインスタンスコンテキスト生成(ICG)と、コンテキストから無関係または有害な情報を排除してインスタンスコンテキストをICGから改善することを目的としたインスタンスコンテキスト改善(ICR)である。接地中、ICGはICCとともにTransformerアーキテクチャの各デコードステージにデプロイされ、例えばコンテキスト学習が行われる。特に、あるデコード段階から学んだインスタンスコンテキストを次のステージに供給し、リッチで差別的なオブジェクト特徴を含むガイダンスとして利用して、デコード機能におけるターゲット認識を高め、逆に、ローカライゼーションを改善するためのより良い新しいインスタンスコンテキストを生成する。既存の手法と比較して、CG-STVGはテキストクエリにおけるオブジェクト情報と、より正確なターゲットローカライゼーションのためのマイニングされたインスタンス視覚コンテキストからのガイダンスを楽しみます。 HCSTVG-v1/-v2 と VidSTG の3つのベンチマーク実験において,CG-STVG は m_tIoU と m_vIoU に新しい最先端をセットし,その有効性を示した。コードはhttps://github.com/henglan/cgstvgでリリースされる。

関連論文リスト

Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization [22.58434223222062]
そこで本研究では,Chain-of-Thought文による時間的局所化手法を提案する。具体的には、テキスト意味情報を活用して、アクションの共通点やバリエーションを捉える能力を高める新しい数ショット学習フレームワークを設計する。公開されているActivityNet1.3とTHUMOS14データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-04-18T04:35:35Z)
Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文参考訳（メタデータ） (2025-03-22T05:04:12Z)
Knowing Your Target: Target-Aware Transformer Makes Better Spatio-Temporal Video Grounding [20.906378094998303]
既存のTransformerベースのSTVGアプローチは、単に0を使用するオブジェクトクエリのセットを利用することが多い。単純さにもかかわらず、これらのゼロオブジェクトクエリは、ターゲット固有の手がかりが欠如しているため、識別対象情報の学習が困難である。 STVG (Target-Aware Transformer for STVG) を新たに導入し,ビデオテキストペアからターゲット固有のキューを探索することで,オブジェクトクエリを適応的に生成する手法を提案する。
論文参考訳（メタデータ） (2025-02-16T15:38:33Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文参考訳（メタデータ） (2024-10-20T11:40:31Z)
Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。本手法は3つのベンチマークでSOTA法より優れている。
論文参考訳（メタデータ） (2024-10-02T13:30:32Z)
See It All: Contextualized Late Aggregation for 3D Dense Captioning [38.14179122810755]
3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。 3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。 SIA(See-It-All)は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
論文参考訳（メタデータ） (2024-08-14T16:19:18Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。 HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。 3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文参考訳（メタデータ） (2023-03-02T08:00:22Z)
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文参考訳（メタデータ） (2023-02-28T19:29:05Z)
Video Referring Expression Comprehension via Transformer with Content-aware Query [60.89442448993627]
ビデオ参照表現(REC)は、自然言語表現によって参照されるビデオフレーム内の対象物をローカライズすることを目的としている。現在のクエリ設計はサブオプティマであり、2つの欠点に悩まされている。フレーム全体に一定の数の学習可能なバウンディングボックスを設置し,実りある手がかりを提供するために,アライメントされた領域特徴を用いる。
論文参考訳（メタデータ） (2022-10-06T14:45:41Z)
Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文参考訳（メタデータ） (2021-08-18T12:46:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。