論文の概要: Focus-to-Perceive Representation Learning: A Cognition-Inspired Hierarchical Framework for Endoscopic Video Analysis
- arxiv url: http://arxiv.org/abs/2603.25778v1
- Date: Thu, 26 Mar 2026 14:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.210345
- Title: Focus-to-Perceive Representation Learning: A Cognition-Inspired Hierarchical Framework for Endoscopic Video Analysis
- Title(参考訳): フォーカス・ツー・パーセプティブな表現学習:内視鏡的映像解析のための認知型階層型フレームワーク
- Authors: Yuan Zhang, Sihao Dou, Kai Hu, Shuhua Deng, Chunhong Cao, Fen Xiao, Xieping Gao,
- Abstract要約: 臨床検査をエミュレートする認知に触発された階層的枠組みであるフォーカス・ツー・パーセプティブ・ラーニング(FPRL)を提案する。
FPRLは最初、静的セマンティクスを学ぶためにフレーム内病変中心の領域に焦点を当て、フレーム間の進化を知覚してコンテキストセマンティクスをモデル化する。
11の内視鏡的ビデオデータセットの実験により、FPRLは様々な下流タスクで優れたパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 18.349979396713646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Endoscopic video analysis is essential for early gastrointestinal screening but remains hindered by limited high-quality annotations. While self-supervised video pre-training shows promise, existing methods developed for natural videos prioritize dense spatio-temporal modeling and exhibit motion bias, overlooking the static, structured semantics critical to clinical decision-making. To address this challenge, we propose Focus-to-Perceive Representation Learning (FPRL), a cognition-inspired hierarchical framework that emulates clinical examination. FPRL first focuses on intra-frame lesion-centric regions to learn static semantics, and then perceives their evolution across frames to model contextual semantics. To achieve this, FPRL employs a hierarchical semantic modeling mechanism that explicitly distinguishes and collaboratively learns both types of semantics. Specifically, it begins by capturing static semantics via teacher-prior adaptive masking (TPAM) combined with multi-view sparse sampling. This approach mitigates redundant temporal dependencies and enables the model to concentrate on lesion-related local semantics. Following this, contextual semantics are derived through cross-view masked feature completion (CVMFC) and attention-guided temporal prediction (AGTP). These processes establish cross-view correspondences and effectively model structured inter-frame evolution, thereby reinforcing temporal semantic continuity while preserving global contextual integrity. Extensive experiments on 11 endoscopic video datasets show that FPRL achieves superior performance across diverse downstream tasks, demonstrating its effectiveness in endoscopic video representation learning. The code is available at https://github.com/MLMIP/FPRL.
- Abstract(参考訳): 内視鏡的画像解析は早期の消化管スクリーニングには不可欠であるが,高品質なアノテーションが不足している。
自己監督型ビデオ事前トレーニングは有望であるが、自然ビデオ用に開発された既存の方法は、高密度な時空間モデリングを優先し、運動バイアスを示し、臨床的な意思決定に不可欠な静的な構造的意味論を見越す。
この課題に対処するために,臨床検査をエミュレートする認知に着想を得た階層的枠組みであるフォーカス・ツー・パーセプティブ・表現学習(FPRL)を提案する。
FPRLは最初、静的セマンティクスを学ぶためにフレーム内病変中心の領域に焦点を当て、フレーム間の進化を知覚してコンテキストセマンティクスをモデル化する。
これを実現するため、FPRLは階層的セマンティックモデリング機構を採用し、両者のセマンティックスを明確に区別し、協調的に学習する。
具体的には、教師優先適応マスキング(TPAM)とマルチビュースパースサンプリングを組み合わせた静的セマンティクスのキャプチャから始める。
このアプローチは冗長な時間的依存関係を緩和し、モデルが病変に関連する局所的意味論に集中できるようにする。
その後、コンテキスト意味論は、クロスビューマスク付き特徴補完(CVMFC)と注意誘導時間予測(AGTP)によって導かれる。
これらのプロセスは、クロスビュー対応を確立し、フレーム間の進化を効果的にモデル化し、グローバルな文脈整合性を維持しながら、時間的意味的連続性を補強する。
11の内視鏡ビデオデータセットに対する大規模な実験により、FPRLは様々な下流タスクにまたがって優れたパフォーマンスを達成し、内視鏡ビデオ表現学習の有効性を示す。
コードはhttps://github.com/MLMIP/FPRLで公開されている。
関連論文リスト
- Xiaoice: Training-Free Video Understanding via Self-Supervised Spatio-Temporal Clustering of Semantic Features [10.21556794551883]
本稿では,エンド・ツー・エンドのトレーニングを回避できる,ビデオ理解のための新しい学習自由フレームワークを提案する。
我々の中心となる考え方は、高次元の特徴空間内の自己監督的時間的クラスタリングとしての映像理解である。
このアプローチは、ビデオコンテンツのゼロショット、自動構造解析のための効果的、解釈可能、およびモデルに依存しない経路を提供する。
論文 参考訳(メタデータ) (2025-10-19T10:13:34Z) - Novel Category Discovery with X-Agent Attention for Open-Vocabulary Semantic Segmentation [48.806000388608005]
提案するX-Agentは,「潜時意味認識エージェント」を用いてモーダル間注意機構を編成する,革新的なOVSSフレームワークである。
X-Agentは最先端のパフォーマンスを実現し、潜伏したセマンティックサリエンシを効果的に強化する。
論文 参考訳(メタデータ) (2025-09-01T09:01:58Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。
主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文 参考訳(メタデータ) (2025-07-28T08:42:00Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。