論文の概要: InstAP: Instance-Aware Vision-Language Pre-Train for Spatial-Temporal Understanding
- arxiv url: http://arxiv.org/abs/2604.08337v1
- Date: Thu, 09 Apr 2026 15:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.981964
- Title: InstAP: Instance-Aware Vision-Language Pre-Train for Spatial-Temporal Understanding
- Title(参考訳): InstAP: 空間的時間的理解のためのインスタンス対応ビジョンランゲージ事前学習
- Authors: Ashutosh Kumar, Rajat Saini, Jingjing Pan, Mustafa Erdogan, Mingfang Zhang, Betty Le Dem, Norimasa Kobori, Quan Kong,
- Abstract要約: InstAPは、視覚言語による事前トレーニングのためのインスタンス対応事前トレーニングフレームワークである。
InstVLは大規模なデータセット(画像200万枚、ビデオ5万本)で、二重粒度アノテーション(全体像キャプションと密集したインスタンス記述)を備えている。
InstAPは、MSR-VTTやDiDeMoを含む複数のビデオベンチマークで、競争力のあるゼロショット性能を実現している。
- 参考スコア(独自算出の注目度): 13.813894007176941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current vision-language pre-training (VLP) paradigms excel at global scene understanding but struggle with instance-level reasoning due to global-only supervision. We introduce InstAP, an Instance-Aware Pre-training framework that jointly optimizes global vision-text alignment and fine-grained, instance-level contrastive alignment by grounding textual mentions to specific spatial-temporal regions. To support this, we present InstVL, a large-scale dataset (2 million images, 50,000 videos) with dual-granularity annotations: holistic scene captions and dense, grounded instance descriptions. On the InstVL benchmark, InstAP substantially outperforms existing VLP models on instance-level retrieval, and also surpasses a strong VLP baseline trained on the exact same data corpus, isolating the benefit of our instance-aware objective. Moreover, instance-centric pre-training improves global understanding: InstAP achieves competitive zero-shot performance on multiple video benchmarks, including MSR-VTT and DiDeMo. Qualitative visualizations further show that InstAP localizes textual mentions to the correct instances, while global-only models exhibit more diffuse, scene-level attention.
- Abstract(参考訳): 現在の視覚言語事前学習(VLP)パラダイムは、グローバルシーン理解において優れているが、グローバルのみの監督によるインスタンスレベルの推論に苦慮している。
InstAPは、グローバルな視覚テキストアライメントと、特定の空間時間領域へのテキスト参照を基盤として、細粒度でインスタンスレベルのコントラストアライメントを共同で最適化する、インスタンス対応事前学習フレームワークである。
これをサポートするために、大規模なデータセット(200万の画像、50,000のビデオ)であるInstVLを紹介します。
InstVLベンチマークでは、インスタンスレベルの検索において既存のVLPモデルを大幅に上回り、全く同じデータコーパスでトレーニングされた強力なVLPベースラインを超え、インスタンス認識の目的のメリットを孤立させる。
InstAPは、MSR-VTTやDiDeMoを含む複数のビデオベンチマークで、競争力のあるゼロショットのパフォーマンスを達成する。
質的な視覚化は、InstAPが正しいインスタンスへのテキスト参照をローカライズすることを示している。
関連論文リスト
- Segment Any Events with Language [68.05185562243356]
これは、Open-Vocabulary Event Instance (OV-EIS)に対処する最初のセマンティック対応のAny Eventsフレームワークです。
視覚的プロンプトを前提として,本モデルでは,セグメンテーションイベントとオープンボキャブラリマスクの分類を,複数レベルの粒度でサポートする統一フレームワークを提案する。
我々のSEALは、パラメータ効率のよいアーキテクチャで性能と推論速度の点で提案されたベースラインよりも大きく優れています。
論文 参考訳(メタデータ) (2026-01-30T16:42:56Z) - BREATH-VL: Vision-Language-Guided 6-DoF Bronchoscopy Localization via Semantic-Geometric Fusion [7.382475458362566]
BREATH-VLは,視覚言語モデルからのセマンティックキューと,登録手法からの幾何情報を統合し,正確な6-DoFポーズ推定を行うハイブリッドフレームワークである。
これに基づいて、BREATH-VLは、最先端の視覚のみのローカライゼーション法を精度と一般化の両方で上回り、翻訳誤差を最良性能のベースラインと比較して25.5%削減する。
論文 参考訳(メタデータ) (2026-01-07T09:00:52Z) - Point What You Mean: Visually Grounded Instruction Policy [42.52502990975079]
Point-VLAは、言語命令を明示的な視覚的手がかりで拡張し、参照の曖昧さを解決するためのプラグアンドプレイポリシーである。
我々は,多種多様な実世界の参照タスクにおいてポイントVLAを評価し,テキストのみの命令VLAよりも一貫して強靭なパフォーマンスを観察する。
論文 参考訳(メタデータ) (2025-12-22T00:44:19Z) - VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs [13.486495756813078]
VLM(Vision-Language Models)は、高レベルのシーン理解において優れるが、精密なローカライゼーションを必要とする微粒な知覚タスクに重点を置いている。
VLM-FO1は、オブジェクト中心の知覚を堅牢な特徴検索タスクに再フレーミングすることで、この制限を克服する新しいフレームワークである。
本手法は,プリトレーニング済みのVLMと統合したプラグイン・アンド・プレイモジュールとして動作する。
論文 参考訳(メタデータ) (2025-09-30T08:10:56Z) - Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos [53.723410664944566]
本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。
提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。
SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
論文 参考訳(メタデータ) (2025-06-05T17:51:39Z) - An Empirical Study of Federated Prompt Learning for Vision Language Model [89.2963764404892]
本稿では,言語プロンプト学習(VPT)と視覚プロンプト学習(VLM)の行動的差異を系統的に検討する。
我々は、FPL(Federated Prompt Learning)の堅牢性を評価するために、クライアントスケール、集約戦略、即時長といった様々なFLと迅速な構成の影響を評価する。
論文 参考訳(メタデータ) (2025-05-29T03:09:15Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - GLIPv2: Unifying Localization and Vision-Language Understanding [161.1770269829139]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。
GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。
一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T20:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。