Fugu-MT 論文翻訳(概要): CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

論文の概要: CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

arxiv url: http://arxiv.org/abs/2602.19605v1
Date: Mon, 23 Feb 2026 08:47:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.732661
Title: CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning
Title（参考訳）: CLCR:マルチモーダル学習のためのクロスレベルセマンティック協調表現
Authors: Chunlei Meng, Guanhong Huang, Rong Fu, Runmin Jian, Zhongxue Gan, Chun Ouyang,
Abstract要約: マルチモーダル学習は、複数のモーダルから共有情報とプライベート情報の両方をキャプチャすることを目的としている。融合のための単一の潜在空間に全てのモダリティを投影する既存の手法は、しばしばマルチモーダルデータの非同期なマルチレベルセマンティック構造を見落としている。本稿では,各モダリティの特徴を3段階のセマンティック階層に明示的に整理するクロスレベル共表現(CLCR)を提案する。
参考スコア（独自算出の注目度）: 10.210493389825116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal learning aims to capture both shared and private information from multiple modalities. However, existing methods that project all modalities into a single latent space for fusion often overlook the asynchronous, multi-level semantic structure of multimodal data. This oversight induces semantic misalignment and error propagation, thereby degrading representation quality. To address this issue, we propose Cross-Level Co-Representation (CLCR), which explicitly organizes each modality's features into a three-level semantic hierarchy and specifies level-wise constraints for cross-modal interactions. First, a semantic hierarchy encoder aligns shallow, mid, and deep features across modalities, establishing a common basis for interaction. And then, at each level, an Intra-Level Co-Exchange Domain (IntraCED) factorizes features into shared and private subspaces and restricts cross-modal attention to the shared subspace via a learnable token budget. This design ensures that only shared semantics are exchanged and prevents leakage from private channels. To integrate information across levels, the Inter-Level Co-Aggregation Domain (InterCAD) synchronizes semantic scales using learned anchors, selectively fuses the shared representations, and gates private cues to form a compact task representation. We further introduce regularization terms to enforce separation of shared and private features and to minimize cross-level interference. Experiments on six benchmarks spanning emotion recognition, event localization, sentiment analysis, and action recognition show that CLCR achieves strong performance and generalizes well across tasks.
Abstract（参考訳）: マルチモーダル学習は、複数のモーダルから共有情報とプライベート情報の両方をキャプチャすることを目的としている。しかし、融合のために全てのモダリティを単一の潜在空間に投影する既存の方法は、しばしばマルチモーダルデータの非同期で多レベルなセマンティック構造を見落としている。この監視はセマンティックなミスアライメントとエラーの伝播を誘導し、表現品質を劣化させる。この問題に対処するため、我々は、各モダリティの特徴を3段階のセマンティック階層に明示的に整理し、クロスモーダル相互作用のレベルワイド制約を規定するクロスレベル共表現(CLCR)を提案する。まず、セマンティック階層エンコーダは、モダリティをまたいだ浅層、中層、深層の特徴を整列し、相互作用の共通基盤を確立する。そして、各レベルにおいて、レベル内co-Exchange Domain(IntraCED)は、機能を共有サブスペースとプライベートサブスペースに分解し、学習可能なトークン予算を通じて共有サブスペースへの相互注意を制限する。この設計により、共有セマンティクスだけが交換されることが保証され、プライベートチャネルからの漏洩を防止する。レベル間の情報を統合するために、InterCAD(Inter-Level Co-Aggregation Domain)は、学習アンカーを使用してセマンティックスケールを同期させ、共有表現を選択的に融合させ、プライベートキューをゲートしてコンパクトなタスク表現を形成する。さらに、共有機能とプライベート機能の分離を強制し、クロスレベルの干渉を最小限にするため、正規化用語を導入します。感情認識、イベントローカライゼーション、感情分析、行動認識を対象とする6つのベンチマークの実験では、CLCRは強いパフォーマンスを達成し、タスク全体にわたってうまく一般化している。

関連論文リスト

FSCA-Net: Feature-Separated Cross-Attention Network for Robust Multi-Dataset Training [3.2658295979028753]
本稿では,特徴表現をドメイン不変およびドメイン固有コンポーネントに分離する統合フレームワークを提案する。新しいクロスアテンション融合モジュールは、これらのコンポーネント間の相互作用を適応的にモデル化し、効果的な知識伝達を保証する。複数のクラウドカウントベンチマークの実験では、FSCA-Netは負の転送を効果的に軽減し、最先端のクロスデータセットの一般化を実現する。
論文参考訳（メタデータ） (2026-02-02T02:18:48Z)
Multi-label Classification with Panoptic Context Aggregation Networks [61.82285737410154]
本稿では,多次幾何学的文脈を階層的に統合する新しいアプローチであるDeep Panoptic Context Aggregation Network(PanCAN)を紹介する。 PanCANは、ランダムウォークとアテンションメカニズムを組み合わせることで、各スケールで複数階の近傍関係を学習する。 NUS-WIDE、PASCAL VOC、2007、MS-COCOベンチマークの実験は、PanCANが一貫して競争結果を達成することを示した。
論文参考訳（メタデータ） (2025-12-29T14:16:21Z)
MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement [13.100620283631557]
マルチオブジェクト生成を再考する表現中心のフレームワークであるMOSAICを提案する。我々の重要な洞察は、マルチオブジェクト生成は表現レベルで正確にセマンティックアライメントを必要とすることである。本稿では,意味対応型アライメントの精度を高めるために,意味対応型アライメントアライメントの損失を提案する。
論文参考訳（メタデータ） (2025-09-02T05:40:07Z)
FocalClick-XL: Towards Unified and High-quality Interactive Segmentation [30.83143881909766]
本稿では,FocalClickの古典的粗大な設計を再考する。マルチステージ戦略にヒントを得て,新しいパイプラインFocalClick-XLを提案する。微細な詳細でアルファマットを予測することができ、インタラクティブなセグメンテーションのための汎用的で強力なツールとなる。
論文参考訳（メタデータ） (2025-06-17T16:21:32Z)
Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシーシュワルツの発散を相互情報と統合して視覚言語アライメントを行う新しいフレームワークを提案する。 CS分散はInfoNCEのアライメント・ユニフォーム性競合にシームレスに対処し,InfoNCEと補完的な役割を担っていることがわかった。テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文参考訳（メタデータ） (2025-02-24T10:29:15Z)
Generalizable Heterogeneous Federated Cross-Correlation and Instance Similarity Learning [60.058083574671834]
本稿では,新しいFCCL+,フェデレーション相関と非ターゲット蒸留との類似性学習を提案する。不均一な問題に対しては、無関係な公開データを通信に活用する。局所的な更新段階における破滅的な忘れ物として、FCCL+はFederated Non Target Distillationを導入している。
論文参考訳（メタデータ） (2023-09-28T09:32:27Z)
Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文参考訳（メタデータ） (2023-05-17T14:30:11Z)
Perceiving the Invisible: Proposal-Free Amodal Panoptic Segmentation [13.23676270963484]
アモーダル・パノプティクス・セグメンテーションは、世界の認識と認知的理解を結びつけることを目的としている。我々は、このタスクをマルチラベルおよびマルチクラス問題として扱う、プロポーザルフリーフレームワークを定式化する。共有バックボーンと非対称なデュアルデコーダを組み込んだネットアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-05-29T12:05:07Z)
Beyond the Prototype: Divide-and-conquer Proxies for Few-shot Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。分割・分散の精神において, 単純かつ多目的な枠組みを提案する。提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文参考訳（メタデータ） (2022-04-21T06:21:14Z)
Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。 SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文参考訳（メタデータ） (2021-12-12T06:11:16Z)
Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文参考訳（メタデータ） (2020-03-09T17:05:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。