論文の概要: CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning
- arxiv url: http://arxiv.org/abs/2602.19605v1
- Date: Mon, 23 Feb 2026 08:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.732661
- Title: CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning
- Title(参考訳): CLCR:マルチモーダル学習のためのクロスレベルセマンティック協調表現
- Authors: Chunlei Meng, Guanhong Huang, Rong Fu, Runmin Jian, Zhongxue Gan, Chun Ouyang,
- Abstract要約: マルチモーダル学習は、複数のモーダルから共有情報とプライベート情報の両方をキャプチャすることを目的としている。
融合のための単一の潜在空間に全てのモダリティを投影する既存の手法は、しばしばマルチモーダルデータの非同期なマルチレベルセマンティック構造を見落としている。
本稿では,各モダリティの特徴を3段階のセマンティック階層に明示的に整理するクロスレベル共表現(CLCR)を提案する。
- 参考スコア(独自算出の注目度): 10.210493389825116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning aims to capture both shared and private information from multiple modalities. However, existing methods that project all modalities into a single latent space for fusion often overlook the asynchronous, multi-level semantic structure of multimodal data. This oversight induces semantic misalignment and error propagation, thereby degrading representation quality. To address this issue, we propose Cross-Level Co-Representation (CLCR), which explicitly organizes each modality's features into a three-level semantic hierarchy and specifies level-wise constraints for cross-modal interactions. First, a semantic hierarchy encoder aligns shallow, mid, and deep features across modalities, establishing a common basis for interaction. And then, at each level, an Intra-Level Co-Exchange Domain (IntraCED) factorizes features into shared and private subspaces and restricts cross-modal attention to the shared subspace via a learnable token budget. This design ensures that only shared semantics are exchanged and prevents leakage from private channels. To integrate information across levels, the Inter-Level Co-Aggregation Domain (InterCAD) synchronizes semantic scales using learned anchors, selectively fuses the shared representations, and gates private cues to form a compact task representation. We further introduce regularization terms to enforce separation of shared and private features and to minimize cross-level interference. Experiments on six benchmarks spanning emotion recognition, event localization, sentiment analysis, and action recognition show that CLCR achieves strong performance and generalizes well across tasks.
- Abstract(参考訳): マルチモーダル学習は、複数のモーダルから共有情報とプライベート情報の両方をキャプチャすることを目的としている。
しかし、融合のために全てのモダリティを単一の潜在空間に投影する既存の方法は、しばしばマルチモーダルデータの非同期で多レベルなセマンティック構造を見落としている。
この監視はセマンティックなミスアライメントとエラーの伝播を誘導し、表現品質を劣化させる。
この問題に対処するため、我々は、各モダリティの特徴を3段階のセマンティック階層に明示的に整理し、クロスモーダル相互作用のレベルワイド制約を規定するクロスレベル共表現(CLCR)を提案する。
まず、セマンティック階層エンコーダは、モダリティをまたいだ浅層、中層、深層の特徴を整列し、相互作用の共通基盤を確立する。
そして、各レベルにおいて、レベル内co-Exchange Domain(IntraCED)は、機能を共有サブスペースとプライベートサブスペースに分解し、学習可能なトークン予算を通じて共有サブスペースへの相互注意を制限する。
この設計により、共有セマンティクスだけが交換されることが保証され、プライベートチャネルからの漏洩を防止する。
レベル間の情報を統合するために、InterCAD(Inter-Level Co-Aggregation Domain)は、学習アンカーを使用してセマンティックスケールを同期させ、共有表現を選択的に融合させ、プライベートキューをゲートしてコンパクトなタスク表現を形成する。
さらに、共有機能とプライベート機能の分離を強制し、クロスレベルの干渉を最小限にするため、正規化用語を導入します。
感情認識、イベントローカライゼーション、感情分析、行動認識を対象とする6つのベンチマークの実験では、CLCRは強いパフォーマンスを達成し、タスク全体にわたってうまく一般化している。
関連論文リスト
- Multi-label Classification with Panoptic Context Aggregation Networks [61.82285737410154]
本稿では,多次幾何学的文脈を階層的に統合する新しいアプローチであるDeep Panoptic Context Aggregation Network(PanCAN)を紹介する。
PanCANは、ランダムウォークとアテンションメカニズムを組み合わせることで、各スケールで複数階の近傍関係を学習する。
NUS-WIDE、PASCAL VOC、2007、MS-COCOベンチマークの実験は、PanCANが一貫して競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-12-29T14:16:21Z) - FocalClick-XL: Towards Unified and High-quality Interactive Segmentation [30.83143881909766]
本稿では,FocalClickの古典的粗大な設計を再考する。
マルチステージ戦略にヒントを得て,新しいパイプラインFocalClick-XLを提案する。
微細な詳細でアルファマットを予測することができ、インタラクティブなセグメンテーションのための汎用的で強力なツールとなる。
論文 参考訳(メタデータ) (2025-06-17T16:21:32Z) - Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシーシュワルツの発散を相互情報と統合して視覚言語アライメントを行う新しいフレームワークを提案する。
CS分散はInfoNCEのアライメント・ユニフォーム性競合にシームレスに対処し,InfoNCEと補完的な役割を担っていることがわかった。
テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文 参考訳(メタデータ) (2025-02-24T10:29:15Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Perceiving the Invisible: Proposal-Free Amodal Panoptic Segmentation [13.23676270963484]
アモーダル・パノプティクス・セグメンテーションは、世界の認識と認知的理解を結びつけることを目的としている。
我々は、このタスクをマルチラベルおよびマルチクラス問題として扱う、プロポーザルフリーフレームワークを定式化する。
共有バックボーンと非対称なデュアルデコーダを組み込んだネットアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-29T12:05:07Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。