論文の概要: Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2408.15876v2
- Date: Mon, 23 Dec 2024 08:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:21:27.534265
- Title: Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation
- Title(参考訳): 訓練用無音・言語対応ビデオオブジェクトセグメンテーションにおけるGPTの時間空間推論能力の解放
- Authors: Shaofei Huang, Rui Ling, Hongyu Li, Tianrui Hui, Zongheng Tang, Xiaoming Wei, Jizhong Han, Si Liu,
- Abstract要約: 本稿では,AVS と RVOS タスクという,オーディオおよび言語参照オブジェクトセグメンテーションのトレーニングフリーパラダイムを探求する。
トレーニング不要のAL-Ref-SAM 2パイプラインは、完全に教師された微調整手法に匹敵するパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 31.424025774684257
- License:
- Abstract: In this paper, we propose an Audio-Language-Referenced SAM 2 (AL-Ref-SAM 2) pipeline to explore the training-free paradigm for audio and language-referenced video object segmentation, namely AVS and RVOS tasks. The intuitive solution leverages GroundingDINO to identify the target object from a single frame and SAM 2 to segment the identified object throughout the video, which is less robust to spatiotemporal variations due to a lack of video context exploration. Thus, in our AL-Ref-SAM 2 pipeline, we propose a novel GPT-assisted Pivot Selection (GPT-PS) module to instruct GPT-4 to perform two-step temporal-spatial reasoning for sequentially selecting pivot frames and pivot boxes, thereby providing SAM 2 with a high-quality initial object prompt. Within GPT-PS, two task-specific Chain-of-Thought prompts are designed to unleash GPT's temporal-spatial reasoning capacity by guiding GPT to make selections based on a comprehensive understanding of video and reference information. Furthermore, we propose a Language-Binded Reference Unification (LBRU) module to convert audio signals into language-formatted references, thereby unifying the formats of AVS and RVOS tasks in the same pipeline. Extensive experiments on both tasks show that our training-free AL-Ref-SAM 2 pipeline achieves performances comparable to or even better than fully-supervised fine-tuning methods. The code is available at: https://github.com/appletea233/AL-Ref-SAM2.
- Abstract(参考訳): 本稿では,AVS と RVOS タスクを用いた音声および言語対応ビデオオブジェクトセグメンテーションのためのトレーニングフリーパラダイムを探索するために,オーディオ言語対応SAM2 (AL-Ref-SAM2) パイプラインを提案する。
直感的な解法は、FundingDINOを利用して単一のフレームとSAM 2から対象物を識別し、ビデオ全体を通して特定対象を分割する。
そこで, AL-Ref-SAM 2 パイプラインでは, GPT-4 に対して2段階の時間空間推論を行い, ピボットフレームとピボットボックスを順次選択し, SAM 2 に高品質な初期オブジェクトプロンプトを提供する新しい GPT-Assisted Pivot Selection (GPT-PS) モジュールを提案する。
GPT-PS内では、2つのタスク固有のChain-of-Thoughtプロンプトが、GPTの時間空間推論能力を解き放ち、ビデオおよび参照情報の包括的理解に基づいて選択を行う。
さらに,LBRU(Language-Binded Reference Unification)モジュールにより,音声信号を言語形式の参照に変換することにより,AVSとRVOSタスクのフォーマットを同一パイプラインで統一する。
両タスクの大規模な実験は、トレーニング不要のAL-Ref-SAM 2パイプラインが、完全に教師された微調整手法に匹敵するパフォーマンスを達成していることを示している。
コードは、https://github.com/appletea233/AL-Ref-SAM2.comで入手できる。
関連論文リスト
- SAMWISE: Infusing wisdom in SAM2 for Text-Driven Video Segmentation [4.166500345728911]
私たちは、堅牢なセグメンテーションとトラッキング機能を提供するSegment-Anything 2 (SAM2)モデルを構築します。
本稿では,特徴抽出プロセスにおいて,時間的情報やマルチモーダルな手がかりを注入する新しいアダプタモジュールを提案する。
提案手法であるSAMWISEは,4.2Mパラメータの無視可能なオーバーヘッドを追加することで,様々なベンチマークで最先端を実現する。
論文 参考訳(メタデータ) (2024-11-26T18:10:54Z) - Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes [11.575313825919205]
参照音声・視覚的伝統(Ref-AVS)と呼ばれる新しいタスクを導入する。
Ref-AVSはマルチモーダルキューを含む式に基づいてオブジェクトをセグメント化する。
本稿では,マルチモーダルキューを適切に活用し,正確なセグメンテーションガイダンスを提供する手法を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:54:45Z) - CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering [6.719652962434731]
本稿では,音声-視覚的質問応答(AVQA)のための,CLIPを利用したターゲット対応シングルストリーム(TASS)ネットワークを提案する。
ターゲット対応空間接地モジュール(TSG+)と単一ストリーム継手時間接地モジュール(JTG)の2つのキーコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-05-13T03:25:15Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。