論文の概要: COAL: Counterfactual and Observation-Enhanced Alignment Learning for Discriminative Referring Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2605.14795v1
- Date: Thu, 14 May 2026 13:06:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.833501
- Title: COAL: Counterfactual and Observation-Enhanced Alignment Learning for Discriminative Referring Multi-Object Tracking
- Title(参考訳): COAL:識別的参照多対象追跡のための非現実的・観察的強化アライメント学習
- Authors: Shukun Jia, Shiyu Hu, Yipei Wang, Ximeng Cheng, Yichao Cao, Xiaobo Lu,
- Abstract要約: COAL(Counterfactual and Observation-enhanced Alignment Learning)は、RMOTを知識正規化を通じて分離された構造最適化を超えて前進させるフレームワークである。
VLMによる明示的セマンティックインジェクション(ESI)を導入し,観測空間の密度化とインスタンス識別性の向上を図る。
また,頑健な構成認識のための厳密な属性検証を実施することにより,監督を強化するために,対実学習(CFL)を提案する。
- 参考スコア(独自算出の注目度): 38.34677413728821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Multi-Object Tracking (RMOT) faces a fundamental structural contradiction between the high-discriminability demand and the sparse semantic supervision. This mismatch is particularly acute in highly homogeneous scenarios that require fine-grained discrimination over complex compositional semantics. However, under sparse supervision, models overfit to salient yet insufficient cues, thereby encouraging shortcut learning and semantic collapse. To resolve this, we propose COAL (Counterfactual and Observation-enhanced Alignment Learning), a framework that advances RMOT beyond isolated structural optimization through knowledge regularization. First, we introduce Explicit Semantic Injection (ESI) via a VLM to densify the observation space and enhance instance discriminability. Second, leveraging LLM reasoning, we propose Counterfactual Learning (CFL) to augment supervision, enforcing strict attribute verification for robust compositional recognition. These strategies are unified within a Hierarchical Multi-Stream Integration (HMSI) architecture, which distills external knowledge into domain-specific discriminative representations. Experiments on Refer-KITTI and Refer-KITTI-V2 benchmarks validate COAL's efficacy. Notably, it surpasses the state-of-the-art by 7.28% HOTA on the highly challenging Refer-KITTI-V2. These results demonstrate the effectiveness of knowledge regularization for resolving the sparsity-discriminability paradox in RMOT.
- Abstract(参考訳): Referring Multi-Object Tracking (RMOT) は、高識別性要求とスパースセマンティック監視の基本的な構造上の矛盾に直面している。
このミスマッチは、複雑な構成的意味論に対してきめ細かい識別を必要とする非常に均一なシナリオにおいて特に急激である。
しかし、厳密な監督の下では、モデルは十分に不十分なキューに過度に適合し、ショートカット学習とセマンティック崩壊を促進する。
この問題を解決するために, RMOT を知識正規化を通じて孤立的な構造最適化を超えて発展させるフレームワークである COAL (Counterfactual and Observation-enhanced Alignment Learning) を提案する。
まず,VLMによる明示的意味注入(ESI)を導入し,観測空間の密度化とインスタンス識別性の向上を図る。
第2に,LLM推論を活用して,頑健な構成認識のための厳密な属性検証を実施・強化するための対実的学習(CFL)を提案する。
これらの戦略は階層型マルチストリーム統合(HMSI)アーキテクチャ内で統合され、外部知識をドメイン固有の識別表現に蒸留する。
Refer-KITTIとRefer-KITTI-V2ベンチマークの実験は、COALの有効性を検証する。
特に、非常に挑戦的なRefer-KITTI-V2において、最先端の7.28%のHOTAを上回っている。
これらの結果は,RMOTにおけるスパーシリティ-識別可能性パラドックスの解法における知識正規化の有効性を示す。
関連論文リスト
- Measure-Theoretic Anti-Causal Representation Learning [29.12751904333385]
反因果設定(ラベルは逆ではなく特徴を引き起こす)における因果表現学習は、固有の課題を提示する。
本稿では,反因果表現学習のための新しい測度理論フレームワークである反因果不変抽象化(ACIA)を提案する。
ACIAは2段階の設計を採用し、低レベルの表現はラベルがどのように観測を生成しているかを捉え、高レベルの表現は環境固有のバリエーションを越えて安定した因果パターンを学習する。
論文 参考訳(メタデータ) (2025-10-16T22:13:05Z) - Understanding Catastrophic Interference: On the Identifibility of Latent Representations [67.05452287233122]
破滅的な干渉、あるいは破滅的な忘れ(Caastrophic forgetting)は、機械学習の根本的な課題である。
本稿では,破滅的干渉を識別問題として定式化する新しい理論枠組みを提案する。
我々のアプローチは、合成データセットとベンチマークデータセットの両方で理論的保証と実用的なパフォーマンスの改善を提供する。
論文 参考訳(メタデータ) (2025-09-27T00:53:32Z) - On the Effectiveness of Supervision in Asymmetric Non-Contrastive Learning [5.123232962822044]
非対称非競合学習(ANCL)は、自己指導的表現学習において、対照的な学習よりも優れていることが多い。
教師付き表現学習のためのANCL(SupSiamとSupBYOL)について検討し,より優れた表現を実現するためにANCLのラベルを活用する。
分析の結果,ANCLの監督はクラス内ばらつきを低減し,最高の性能を達成するためには,監督の貢献を調整すべきであることが判明した。
論文 参考訳(メタデータ) (2024-06-16T06:43:15Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Decoupled Adversarial Contrastive Learning for Self-supervised
Adversarial Robustness [69.39073806630583]
頑健な表現学習のための対人訓練(AT)と教師なし表現学習のための自己教師型学習(SSL)は2つの活発な研究分野である。
Decoupled Adversarial Contrastive Learning (DeACL) と呼ばれる2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-22T06:30:44Z) - Deep Clustering by Semantic Contrastive Learning [67.28140787010447]
Semantic Contrastive Learning (SCL) と呼ばれる新しい変種を紹介します。
従来のコントラスト学習とディープクラスタリングの両方の特徴を探求する。
コントラスト学習と深層クラスタリングの強みを統一的なアプローチで増幅することができる。
論文 参考訳(メタデータ) (2021-03-03T20:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。