論文の概要: Boosting Point-supervised Temporal Action Localization via Text Refinement and Alignment
- arxiv url: http://arxiv.org/abs/2602.01257v1
- Date: Sun, 01 Feb 2026 14:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.680143
- Title: Boosting Point-supervised Temporal Action Localization via Text Refinement and Alignment
- Title(参考訳): テキストリファインメントとアライメントによる時間的行動局所化の促進
- Authors: Yunchuan Ma, Laiyun Qing, Guorong Li, Yuqing Liu, Yuankai Qi, Qingming Huang,
- Abstract要約: 本稿では,視覚記述からテキスト特徴を効果的に活用し,意味的に豊かな視覚特徴を補完するテキスト認識・アライメント(TRA)フレームワークを提案する。
これは、PTR(Point-based Text Refinement Module)とPMA(Point-based Multimodal Alignment Module)の2つの新しいモジュールを設計することで実現される。
- 参考スコア(独自算出の注目度): 66.80402022104074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, point-supervised temporal action localization has gained significant attention for its effective balance between labeling costs and localization accuracy. However, current methods only consider features from visual inputs, neglecting helpful semantic information from the text side. To address this issue, we propose a Text Refinement and Alignment (TRA) framework that effectively utilizes textual features from visual descriptions to complement the visual features as they are semantically rich. This is achieved by designing two new modules for the original point-supervised framework: a Point-based Text Refinement module (PTR) and a Point-based Multimodal Alignment module (PMA). Specifically, we first generate descriptions for video frames using a pre-trained multimodal model. Next, PTR refines the initial descriptions by leveraging point annotations together with multiple pre-trained models. PMA then projects all features into a unified semantic space and leverages a point-level multimodal feature contrastive learning to reduce the gap between visual and linguistic modalities. Last, the enhanced multi-modal features are fed into the action detector for precise localization. Extensive experimental results on five widely used benchmarks demonstrate the favorable performance of our proposed framework compared to several state-of-the-art methods. Moreover, our computational overhead analysis shows that the framework can run on a single 24 GB RTX 3090 GPU, indicating its practicality and scalability.
- Abstract(参考訳): 近年,ポジショニングコストとローカライゼーション精度の効果的なバランスが注目されている。
しかし、現在の手法では視覚的な入力からのみ機能を考慮し、テキスト側から有用な意味情報を無視している。
この問題に対処するために,視覚的記述からのテキスト特徴を効果的に活用し,意味的に豊かな視覚的特徴を補完するテキスト認識・アライメント(TRA)フレームワークを提案する。
これは、ポイントベースのテキストリファインメントモジュール(PTR)とポイントベースのマルチモーダルアライメントモジュール(PMA)の2つの新しいモジュールを設計することで達成される。
具体的には、事前に訓練されたマルチモーダルモデルを用いて、まずビデオフレームの説明を生成する。
次に、PTRは、複数の事前訓練されたモデルと共にポイントアノテーションを活用することで、初期記述を洗練する。
PMAは、全ての機能を統一的な意味空間に投影し、視覚と言語の間のギャップを減らすために、点レベルのマルチモーダル特徴を対照的に学習する。
最後に、強化されたマルチモーダル特徴をアクション検出器に供給し、正確な位置決めを行う。
5つの広く使用されているベンチマークの大規模な実験結果から,提案手法の有効性が示された。
さらに、計算オーバーヘッド解析により、このフレームワークは単一の24GB RTX 3090 GPU上で動作可能であることを示し、その実用性とスケーラビリティを示している。
関連論文リスト
- PARL: Position-Aware Relation Learning Network for Document Layout Analysis [23.497081928689525]
効果的なレイアウト解析は,テキストと視覚の融合ではなく,文書の本質的な視覚構造を深く理解することに依存する。
位置感度とリレーショナル構造を用いてレイアウトをモデル化する新しいOCRフリー・ビジョンオンリーのフレームワークを提案する。
実験により、PARL (65M) は大規模マルチモーダルモデルより約4倍少ないパラメータを用いて非常に効率的であることが示されている。
論文 参考訳(メタデータ) (2026-01-12T15:05:35Z) - Multi-Text Guided Few-Shot Semantic Segmentation [17.27158303776253]
セグメント化性能を向上させるためにMTGNet(Multi-Text Guided Few-Shot Semantic Network)を提案する。
MTGNetは様々なテキストプロンプトを融合させ、テキストの事前を洗練させ、視覚的事前の相互最適化を導く。
PASCAL-5iでは76.8% mIoU、COCO-20iでは57.4%を達成し、高いクラス内変動を示す折り畳みは顕著に改善されている。
論文 参考訳(メタデータ) (2025-11-19T15:09:19Z) - Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization [22.58434223222062]
そこで本研究では,Chain-of-Thought文による時間的局所化手法を提案する。
具体的には、テキスト意味情報を活用して、アクションの共通点やバリエーションを捉える能力を高める新しい数ショット学習フレームワークを設計する。
公開されているActivityNet1.3とTHUMOS14データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-04-18T04:35:35Z) - Multi-Granularity Language-Guided Training for Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。