論文の概要: TSalV360: A Method and Dataset for Text-driven Saliency Detection in 360-Degrees Videos
- arxiv url: http://arxiv.org/abs/2509.26208v1
- Date: Tue, 30 Sep 2025 13:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.13837
- Title: TSalV360: A Method and Dataset for Text-driven Saliency Detection in 360-Degrees Videos
- Title(参考訳): TSalV360:360-Degreesビデオにおけるテキスト駆動型残差検出のための方法とデータセット
- Authors: Ioannis Kontostathis, Evlampios Apostolidis, Vasileios Mezaris,
- Abstract要約: 我々は360度ビデオにおけるテキスト駆動型唾液度検出の課題に対処する。
16,000個のERPフレームを含むTSV360データセットを導入する。
次に,SOTAの視覚的アプローチを適用して,360度ビデオ・サリエンシ検出を行う。
- 参考スコア(独自算出の注目度): 5.531123091747035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we deal with the task of text-driven saliency detection in 360-degrees videos. For this, we introduce the TSV360 dataset which includes 16,000 triplets of ERP frames, textual descriptions of salient objects/events in these frames, and the associated ground-truth saliency maps. Following, we extend and adapt a SOTA visual-based approach for 360-degrees video saliency detection, and develop the TSalV360 method that takes into account a user-provided text description of the desired objects and/or events. This method leverages a SOTA vision-language model for data representation and integrates a similarity estimation module and a viewport spatio-temporal cross-attention mechanism, to discover dependencies between the different data modalities. Quantitative and qualitative evaluations using the TSV360 dataset, showed the competitiveness of TSalV360 compared to a SOTA visual-based approach and documented its competency to perform customized text-driven saliency detection in 360-degrees videos.
- Abstract(参考訳): 本稿では,360度ビデオにおけるテキスト駆動型塩分濃度検出の課題に対処する。
そこで本研究では,16,000個のERPフレームからなるTSV360データセットについて述べる。
次に,SOTAの視覚的アプローチを拡張して360度映像のサリエンシ検出を行い,ユーザが希望するオブジェクトやイベントのテキスト記述を考慮に入れたTSalV360法を開発した。
本手法は、データ表現のためのSOTAビジョン言語モデルを活用し、類似度推定モジュールとビューポート時空間的相互アテンション機構を統合して、異なるデータモダリティ間の依存関係を検出する。
TSV360データセットを用いた定量的、質的な評価は、SOTAのビジュアルベースアプローチと比較してTSalV360の競争力を示し、360度ビデオでカスタマイズされたテキスト駆動唾液度検出を行う能力を記録した。
関連論文リスト
- Spherical Vision Transformers for Audio-Visual Saliency Prediction in 360-Degree Videos [15.59763872743732]
本研究では, 球面歪みの複雑さと空間音声の統合に対処するため, 塩分濃度予測の領域を360度環境まで拡張する。
この研究は、360度オーディオ・ビジュアル・サリエンシ予測のための包括的なデータセットが欠如していることから、81ODVの新しいデータセットであるYT360-EyeTrackingをキュレートする。
私たちのゴールは、360度ビデオの視覚的サリエンシを効果的に予測するために、オーディオ・ビジュアル・キューを利用する方法を探ることです。
論文 参考訳(メタデータ) (2025-08-27T19:01:47Z) - Beyond Simple Edits: Composed Video Retrieval with Dense Modifications [96.46069692338645]
多様なビデオセグメントにまたがる細粒度および構成されたアクションをキャプチャする新しいデータセットを提案する。
Dense-WebVid-CoVRは、1.6万のサンプルからできており、修正テキストは既存のものより約7倍多い。
我々は,Cross-Attention (CA) 融合により視覚情報とテキスト情報を統合した新しいモデルを開発した。
論文 参考訳(メタデータ) (2025-08-19T17:59:39Z) - MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views [90.26609689682876]
MVSplat360は多様な現実世界シーンの360degノベルビュー合成(NVS)のためのフィードフォワードアプローチであり、スパース観測のみを用いて紹介する。
この設定は、入力ビュー間の重複が最小限であり、提供された視覚情報が不十分であるために本質的に不適切である。
私たちのモデルは、エンドツーエンドのトレーニングが可能で、5つのスパースなインプットビューで任意のビューのレンダリングをサポートしています。
論文 参考訳(メタデータ) (2024-11-07T17:59:31Z) - A Human-Annotated Video Dataset for Training and Evaluation of 360-Degree Video Summarization Methods [6.076406622352117]
本稿では,360度映像コンテンツを2次元映像要約に変換する,360度映像要約のための新しいデータセットを提案する。
このデータセットには、トレーニングや360度ビデオ要約手法の客観的評価に使用可能な、地平の人間生成サマリーが含まれている。
論文 参考訳(メタデータ) (2024-06-05T06:43:48Z) - 360VOTS: Visual Object Tracking and Segmentation in Omnidirectional Videos [16.372814014632944]
我々は全方向ビデオオブジェクトセグメンテーション(360VOS)と呼ばれる新しいコンポーネントを組み込んだ包括的なデータセットとベンチマークを提案する。
360VOSデータセットは、高密度のピクセルワイドマスクを伴い、290のシーケンスを含み、幅広いターゲットカテゴリをカバーする。
我々は最先端のアプローチをベンチマークし、提案した360度トラッキングフレームワークとトレーニングデータセットの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-22T07:54:53Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z) - KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding
in 2D and 3D [67.50776195828242]
KITTI-360は、よりリッチな入力モダリティ、包括的なセマンティックインスタンスアノテーション、正確なローカライゼーションを含む郊外の運転データセットである。
その結果,150k以上のセマンティクスとインスタンスのアノテート画像と1Bのアノテート3Dポイントが得られた。
我々は、同じデータセット上のコンピュータビジョン、グラフィックス、ロボット工学の問題を含む、モバイル知覚に関連するいくつかのタスクのベンチマークとベースラインを構築した。
論文 参考訳(メタデータ) (2021-09-28T00:41:29Z) - A Fixation-based 360{\deg} Benchmark Dataset for Salient Object
Detection [21.314578493964333]
パノラマコンテンツ中の固定予測(FP)は、仮想現実(VR)アプリケーションの普及傾向とともに広く研究されている。
静止物体検出(SOD)は、実際のシーンを表すデータセットが欠如しているため、360度画像ではめったに探索されていない。
論文 参考訳(メタデータ) (2020-01-22T11:16:39Z) - Visual Question Answering on 360{\deg} Images [96.00046925811515]
VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。
最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
論文 参考訳(メタデータ) (2020-01-10T08:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。