論文の概要: Combining Boundary Supervision and Segment-Level Regularization for Fine-Grained Action Segmentation
- arxiv url: http://arxiv.org/abs/2604.01859v1
- Date: Thu, 02 Apr 2026 10:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.676374
- Title: Combining Boundary Supervision and Segment-Level Regularization for Fine-Grained Action Segmentation
- Title(参考訳): ファイングラインドアクションセグメンテーションのための境界スーパービジョンとセグメントレベル正規化の組み合わせ
- Authors: Hinako Mitsuoka, Kazuhiro Hotta,
- Abstract要約: 本稿では,新たに1つの出力チャネルと2つの補助損失項のみを付加することで,細粒度セグメンテーション品質を向上させる軽量なデュアルロストレーニングフレームワークを提案する。
提案手法は,単一チャネル境界予測とCDFに基づくセグメントレベルの正規化損失による時間的局所化を促進する境界回帰損失を組み合わせたものである。
3つのベンチマークデータセット間で、提案手法はセグメントレベルの一貫性とバウンダリ品質を改善し、3つの異なるモデルでより高いF1とEditスコアを得る。
- 参考スコア(独自算出の注目度): 20.7405249370601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in Temporal Action Segmentation (TAS) has increasingly relied on complex architectures, which can hinder practical deployment. We present a lightweight dual-loss training framework that improves fine-grained segmentation quality with only one additional output channel and two auxiliary loss terms, requiring minimal architectural modification. Our approach combines a boundary-regression loss that promotes accurate temporal localization via a single-channel boundary prediction and a CDF-based segment-level regularization loss that encourages coherent within-segment structure by matching cumulative distributions over predicted and ground-truth segments. The framework is architecture-agnostic and can be integrated into existing TAS models (e.g., MS-TCN, C2F-TCN, FACT) as a training-time loss function. Across three benchmark datasets, the proposed method improves segment-level consistency and boundary quality, yielding higher F1 and Edit scores across three different models. Frame-wise accuracy remains largely unchanged, highlighting that precise segmentation can be achieved through simple loss design rather than heavier architectures or inference-time refinements.
- Abstract(参考訳): 最近のTAS(Temporal Action Segmentation)の進歩は、実用的デプロイメントを妨げる複雑なアーキテクチャに依存している。
本稿では,1つの出力チャネルと2つの補助損失項のみを付加することで,細粒度セグメンテーション品質を向上させる軽量なデュアルロストレーニングフレームワークを提案する。
提案手法は, 単一チャネル境界予測による時間的正確な局所化を促進する境界回帰損失と, CDFに基づくセグメントレベルの正規化損失とを組み合わせ, 予測および接地構造上の累積分布を一致させることにより, 整合性内部構造を促進させる。
このフレームワークはアーキテクチャに依存しず、トレーニング時間損失関数として既存のTASモデル(例えばMS-TCN、C2F-TCN、FACT)に統合することができる。
3つのベンチマークデータセット間で、提案手法はセグメントレベルの一貫性とバウンダリ品質を改善し、3つの異なるモデルでより高いF1とEditスコアを得る。
フレームの精度はほとんど変わっておらず、より重いアーキテクチャや推論時間の改良ではなく、単純な損失設計によって正確なセグメンテーションが達成できることを強調している。
関連論文リスト
- Binary-Gaussian: Compact and Progressive Representation for 3D Gaussian Segmentation [83.90109373769614]
3D Gaussian Splatting (3D-GS)は効率的な3D表現として登場し、セグメンテーションのようなセグメンテーションタスクのための有望な基盤となっている。
本稿では,各特徴を2進数対決定写像によって1つの整数に圧縮する,ガウス単位のカテゴリ表現のための粗大なバイナリ符号化方式を提案する。
さらに,個別のサブタスクに分割し,クラス間の衝突を減らし,きめ細かいセグメンテーション能力を向上させるプログレッシブトレーニング戦略を設計する。
論文 参考訳(メタデータ) (2025-11-30T15:51:30Z) - I-Segmenter: Integer-Only Vision Transformer for Efficient Semantic Segmentation [0.0]
量子化は効率を改善するための効果的な戦略を提供するが、ViTベースのセグメンテーションモデルは低い精度で脆弱である。
I-Segmenterは完全整数のみのViTセグメンテーションフレームワークである。
I-セグメンタは、シングルキャリブレーション画像のワンショットPTQにおいても、競合精度を達成する。
論文 参考訳(メタデータ) (2025-09-12T15:14:19Z) - SDF-TopoNet: A Two-Stage Framework for Tubular Structure Segmentation via SDF Pre-training and Topology-Aware Fine-Tuning [2.3436632098950456]
主な課題は、計算効率を維持しながら位相的正しさを確保することである。
改良されたトポロジ対応セグメンテーションフレームワークである textbfSDF-TopoNet を提案する。
SDF-TopoNetは, 位相的精度と定量的セグメンテーションの指標の両方において, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-14T23:54:38Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z) - InverseForm: A Loss Function for Structured Boundary-Aware Segmentation [80.39674800972182]
逆変換ネットワークを用いたセマンティックセグメンテーションのための新しい境界認識損失項を提案する。
このプラグイン損失項は境界変換の捕捉におけるクロスエントロピー損失を補完する。
室内および屋外のセグメンテーションベンチマークにおける損失関数の定量的および定性的効果を解析した。
論文 参考訳(メタデータ) (2021-04-06T18:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。