論文の概要: Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions
- arxiv url: http://arxiv.org/abs/2503.24298v1
- Date: Mon, 31 Mar 2025 16:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:34:58.756524
- Title: Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions
- Title(参考訳): 注文事項:近距離対称行動認識のためのパラメータ効率の良い画像間探索について
- Authors: Thinesh Thiyakesan Ponbagavathi, Alina Roitberg,
- Abstract要約: STEP(Self-attentive Temporal Embedding Probing)は、パラメータ効率のよい画像間転送において時間感度を強制するように設計されている。
STEPは4つのアクティビティ認識ベンチマークで既存の画像とビデオの探索メカニズムを3~15%上回っている。
- 参考スコア(独自算出の注目度): 9.40312938201715
- License:
- Abstract: We study parameter-efficient image-to-video probing for the unaddressed challenge of recognizing nearly symmetric actions - visually similar actions that unfold in opposite temporal order (e.g., opening vs. closing a bottle). Existing probing mechanisms for image-pretrained models, such as DinoV2 and CLIP, rely on attention mechanism for temporal modeling but are inherently permutation-invariant, leading to identical predictions regardless of frame order. To address this, we introduce Self-attentive Temporal Embedding Probing (STEP), a simple yet effective approach designed to enforce temporal sensitivity in parameter-efficient image-to-video transfer. STEP enhances self-attentive probing with three key modifications: (1) a learnable frame-wise positional encoding, explicitly encoding temporal order; (2) a single global CLS token, for sequence coherence; and (3) a simplified attention mechanism to improve parameter efficiency. STEP outperforms existing image-to-video probing mechanisms by 3-15% across four activity recognition benchmarks with only 1/3 of the learnable parameters. On two datasets, it surpasses all published methods, including fully fine-tuned models. STEP shows a distinct advantage in recognizing nearly symmetric actions, surpassing other probing mechanisms by 9-19%. and parameter-heavier PEFT-based transfer methods by 5-15%. Code and models will be made publicly available.
- Abstract(参考訳): ほぼ対称な動作を認識するためのパラメータ効率の高い画像間探索法について検討した。
DinoV2やCLIPのような既存の画像事前学習モデルの探索メカニズムは、時間的モデリングの注意機構に依存しているが、本質的に置換不変であり、フレーム順序に関係なく同一の予測をもたらす。
これを解決するために,パラメータ効率のよい画像-映像間転送において,時間的感度を強制する簡易かつ効果的な手法であるセルフアテンティブ・テンポラル・エンベディング・プロビング(STEP)を導入する。
STEPは,学習可能なフレーム単位の位置符号化,時間順序の明示的符号化,シーケンスコヒーレンスのための単一グローバルCLSトークン,パラメータ効率を向上させるための簡易な注意機構の3つの重要な改良により,自己注意探索を強化する。
STEPは、学習可能なパラメータの1/3しか持たない4つのアクティビティ認識ベンチマークにおいて、既存の画像とビデオの探索メカニズムを3~15%上回っている。
2つのデータセットでは、完全に微調整されたモデルを含む、公開されたすべてのメソッドを上回ります。
STEPは、ほぼ対称な作用を認識し、他の探索機構を9-19%上回る明確な優位性を示す。
パラメータ重み付きPEFTベースの転送方式を5~15%削減した。
コードとモデルは公開されます。
関連論文リスト
- Zero Token-Driven Deep Thinking in LLMs: Unlocking the Full Potential of Existing Parameters via Cyclic Refinement [43.548042892597536]
本稿では,ヘッドテールデカップリングパラメータサイクリング方式を特徴とするZero Token Transformer (ZTT)を提案する。
最初の(頭)層と最後の(尾)層をパラメータサイクリングから切り離し、中間層のみを反復的に洗練します。
提案手法は, 厳密なパラメータ予算下での優れた性能を実現し, 早期出口による計算オーバーヘッドを効果的に低減し, 既存の訓練済みモデルに容易に適用することができる。
論文 参考訳(メタデータ) (2025-02-17T04:37:22Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Parameter Hierarchical Optimization for Visible-Infrared Person Re-Identification [0.6675805308519986]
Visible-infrared person re-identification (VI-reID) は、視界や赤外線カメラで捉えた、モダリティの横断的な歩行者像のマッチングを目的としている。
VI-ReIDのタスクに対して,パラメータ階層最適化(PHO)手法を新たに提案する。
これにより、パラメータの検索スペースを狭め、ネットワーク全体をトレーニングしやすくする。
論文 参考訳(メタデータ) (2024-04-11T17:27:39Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - An Improved Single Step Non-autoregressive Transformer for Automatic
Speech Recognition [28.06475768075206]
非自己回帰機構は、音声変換器の推論時間を著しく短縮することができる。
CTCアライメントに基づく単一ステップ非自己回帰変換器(CASS-NAT)の以前の研究は、自己回帰変換器(AT)よりも大きなリアルタイム係数(RTF)の改善を示している。
エンド・ツー・エンドのCASS-NATの精度を向上させるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2021-06-18T02:58:30Z) - Deep Learning for Regularization Prediction in Diffeomorphic Image
Registration [8.781861951759948]
微分同相変換の滑らかさを制御するパラメータを自動的に決定する新しいフレームワークを導入する。
画像登録の正規化パラメータとペア画像間のマッピングを学習する深層畳み込みニューラルネットワーク(CNN)に基づく予測モデルを開発した。
実験結果から,本モデルは画像登録のための適切な正規化パラメータを予測できるだけでなく,時間とメモリ効率の面でネットワークトレーニングを改善することが示唆された。
論文 参考訳(メタデータ) (2020-11-28T22:56:44Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。