Fugu-MT 論文翻訳(概要): Dense Video Object Captioning from Disjoint Supervision

論文の概要: Dense Video Object Captioning from Disjoint Supervision

arxiv url: http://arxiv.org/abs/2306.11729v1
Date: Tue, 20 Jun 2023 17:57:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 13:08:03.241986
Title: Dense Video Object Captioning from Disjoint Supervision
Title（参考訳）: 解離スーパービジョンからの高精細映像オブジェクトキャプション
Authors: Xingyi Zhou, Anurag Arnab, Chen Sun, Cordelia Schmid
Abstract要約: 本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。我々のモデルはエンドツーエンドで訓練されており、空間的位置決め、追跡、キャプションのための異なるモジュールで構成されている。我々のモデルは、VidSTGとVLNに基づく空間接地のための、最先端の専用モデルよりも優れています。
参考スコア（独自算出の注目度）: 74.29564964727813
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a new task and model for dense video object captioning -- detecting, tracking, and captioning trajectories of all objects in a video. This task unifies spatial and temporal understanding of the video, and requires fine-grained language description. Our model for dense video object captioning is trained end-to-end and consists of different modules for spatial localization, tracking, and captioning. As such, we can train our model with a mixture of disjoint tasks, and leverage diverse, large-scale datasets which supervise different parts of our model. This results in noteworthy zero-shot performance. Moreover, by finetuning a model from this initialization, we can further improve our performance, surpassing strong image-based baselines by a significant margin. Although we are not aware of other work performing this task, we are able to repurpose existing video grounding datasets for our task, namely VidSTG and VLN. We show our task is more general than grounding, and models trained on our task can directly be applied to grounding by finding the bounding box with the maximum likelihood of generating the query sentence. Our model outperforms dedicated, state-of-the-art models for spatial grounding on both VidSTG and VLN.
Abstract（参考訳）: 本研究では,ビデオ中の全オブジェクトの軌跡の検出,追跡,キャプションを行うための新しいタスクとモデルを提案する。このタスクはビデオの空間的および時間的理解を統一し、詳細な言語記述を必要とする。高密度ビデオキャプションのモデルはエンドツーエンドで訓練され、空間的ローカライゼーション、追跡、キャプションのための異なるモジュールで構成されている。そのため、さまざまなタスクを混在させてモデルをトレーニングし、モデルのさまざまな部分を監督する多種多様な大規模データセットを活用できます。これにより、注目すべきゼロショット性能が得られる。さらに、この初期化からモデルを微調整することで、強い画像ベースベースラインをかなりの差で超えて、パフォーマンスをさらに向上させることができる。我々は、このタスクを実行する他の作業について知らないが、既存のビデオグラウンドデータセット、すなわちVidSTGとVLNを再利用することができる。我々のタスクは接地よりも一般的であり、我々のタスクでトレーニングされたモデルは、クエリ文を生成する最大可能性のバウンディングボックスを見つけることによって、接地に直接適用できる。我々のモデルは、VdSTGとVLNの両方の空間接地のための、最先端の専用モデルよりも優れている。

関連論文リスト

Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。 OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文参考訳（メタデータ） (2024-05-17T14:52:47Z)
TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。最近のソリューションは主にオールインワンモデルです。汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文参考訳（メタデータ） (2024-03-12T22:33:02Z)
Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文参考訳（メタデータ） (2023-08-15T17:58:11Z)
Look, Remember and Reason: Grounded reasoning in videos with language models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2023-06-30T16:31:14Z)
Tracking through Containers and Occluders in the Wild [32.86030395660071]
重い閉塞と封じ込めによる視覚追跡のための新しいベンチマークとモデルである$textbfTCOW$を紹介した。我々は、教師付き学習とモデル性能の構造化評価の両方をサポートするために、合成データセットと注釈付き実データセットの混合を作成する。最近の2つのトランスフォーマーベースビデオモデルを評価し,タスク変動の特定の設定下でターゲットを驚くほど追跡できるが,トラッキングモデルが真のオブジェクト永続性(permanence)の概念を獲得したと主張するまでには,かなりの性能差が残っていることを発見した。
論文参考訳（メタデータ） (2023-05-04T17:59:58Z)
STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文参考訳（メタデータ） (2023-02-20T03:13:45Z)
Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文参考訳（メタデータ） (2022-11-20T20:30:28Z)
PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。 PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文参考訳（メタデータ） (2021-12-01T19:49:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。