論文の概要: Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence
- arxiv url: http://arxiv.org/abs/2509.16677v1
- Date: Sat, 20 Sep 2025 13:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.919921
- Title: Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence
- Title(参考訳): Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation towards the Embodied Intelligence (特集:情報工学)
- Authors: Wenxin Li, Kunyu Peng, Di Wen, Ruiping Liu, Mengfei Duan, Kai Luo, Kailun Yang,
- Abstract要約: アクションベースのビデオオブジェクトセグメンテーションは、セグメンテーションとアクションセマンティクスをリンクすることでこの問題に対処する。
まず、ラベルノイズ下でのアクションベースビデオオブジェクトのセグメンテーションについて検討する。
この設定に6つのラベルノイズ学習戦略を適用し、評価のためのプロトコルを確立する。
- 参考スコア(独自算出の注目度): 22.45673628231233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied intelligence relies on accurately segmenting objects actively involved in interactions. Action-based video object segmentation addresses this by linking segmentation with action semantics, but it depends on large-scale annotations and prompts that are costly, inconsistent, and prone to multimodal noise such as imprecise masks and referential ambiguity. To date, this challenge remains unexplored. In this work, we take the first step by studying action-based video object segmentation under label noise, focusing on two sources: textual prompt noise (category flips and within-category noun substitutions) and mask annotation noise (perturbed object boundaries to mimic imprecise supervision). Our contributions are threefold. First, we introduce two types of label noises for the action-based video object segmentation task. Second, we build up the first action-based video object segmentation under a label noise benchmark ActiSeg-NL and adapt six label-noise learning strategies to this setting, and establish protocols for evaluating them under textual, boundary, and mixed noise. Third, we provide a comprehensive analysis linking noise types to failure modes and robustness gains, and we introduce a Parallel Mask Head Mechanism (PMHM) to address mask annotation noise. Qualitative evaluations further reveal characteristic failure modes, including boundary leakage and mislocalization under boundary perturbations, as well as occasional identity substitutions under textual flips. Our comparative analysis reveals that different learning strategies exhibit distinct robustness profiles, governed by a foreground-background trade-off where some achieve balanced performance while others prioritize foreground accuracy at the cost of background precision. The established benchmark and source code will be made publicly available at https://github.com/mylwx/ActiSeg-NL.
- Abstract(参考訳): 身体的知性は、相互作用に積極的に関与するオブジェクトを正確に分割することに依存する。
アクションベースのビデオオブジェクトセグメンテーションは、セグメンテーションとアクションセマンティクスをリンクすることでこの問題に対処するが、コストが高く、一貫性がなく、不正確なマスクや参照曖昧さのようなマルチモーダルノイズに起因する大規模なアノテーションやプロンプトに依存する。
現在までこの課題は未解決のままである。
本研究では,ラベルノイズ下での動作に基づく映像オブジェクトのセグメンテーションについて,テキスト・プロンプト・ノイズ(カテゴリ・フリップとカテゴリ内名詞置換)とマスク・アノテーション・ノイズ(不正確な監視を模倣する摂動物体境界)の2つの源に着目して研究する。
私たちの貢献は3倍です。
まず,アクションベースビデオオブジェクトセグメンテーションタスクに2種類のラベルノイズを導入する。
第2に、ラベルノイズベンチマークActiSeg-NLに基づいて、最初のアクションベースビデオオブジェクトセグメンテーションを構築し、この設定に6つのラベルノイズ学習戦略を適用し、それらをテキスト、境界、混合ノイズ下で評価するためのプロトコルを確立する。
第3に、ノイズタイプを障害モードとロバスト性ゲインにリンクする包括的分析を行い、マスクのノイズに対処するためのパラレルマスクヘッド機構(PMHM)を導入する。
定性的な評価は、境界の漏れや境界の摂動による非局在化、テキストのフリップによる時折のアイデンティティ置換など、特性的な障害モードをさらに明らかにする。
比較分析の結果, 異なる学習戦略が, 前景のトレードオフによって支配され, 背景の精度が向上する一方で, 前景の精度が背景の精度に優先されていることが明らかとなった。
確立されたベンチマークとソースコードはhttps://github.com/mylwx/ActiSeg-NLで公開される。
関連論文リスト
- LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - Noisy Annotations in Semantic Segmentation [5.139071616097179]
本研究は,各種モデルによるセグメンテーションマスクの品質について光を当てる。
ラベルノイズによる学習に対処するために設計された一般的な手法の有効性に挑戦する。
論文 参考訳(メタデータ) (2024-06-16T10:49:23Z) - Exploratory Evaluation of Speech Content Masking [7.012446339121189]
コンテントマスキング」と呼ばれる新しいタイプのプライバシを探求する玩具問題を導入する。
個別の音声表現(音声符号)の系列変更に基づくベースラインマスキング手法の評価を行う。
本稿では,3種類のマスキング場所と3種類のマスキング戦略について検討する。
論文 参考訳(メタデータ) (2024-01-08T14:56:03Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Static object detection and segmentation in videos based on dual
foregrounds difference with noise filtering [0.0]
本稿では,映像中の静止物体検出とセグメンテーション手法について述べる。
提案手法は, 岩盤ブレーカー局に適用し, 実データ, 合成データ, および2つの公開データを用いて有効に検証した。
論文 参考訳(メタデータ) (2020-12-19T15:01:59Z) - Towards Noise-resistant Object Detection with Noisy Annotations [119.63458519946691]
ディープオブジェクト検出器の訓練には、正確なオブジェクトラベルとバウンディングボックス座標を持つ、相当量の人間の注釈画像が必要である。
ノイズの多いアノテーションはずっと簡単にアクセスできますが、学習には有害かもしれません。
ノイズにはラベルノイズとバウンディングボックスノイズが混在している。
論文 参考訳(メタデータ) (2020-03-03T01:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。