論文の概要: Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization
- arxiv url: http://arxiv.org/abs/2604.16247v1
- Date: Fri, 17 Apr 2026 17:07:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:20.020087
- Title: Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization
- Title(参考訳): 構造保存と情報ベース正規化を併用した重心性コントラストアライメント
- Authors: Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin,
- Abstract要約: HILBERTは文書レベルの音声テキスト表現を学習するための横断的フレームワークである。
HILBERTは意味論的に意味のあるロングシーケンス表現を学習し、高度に不均衡なマルチクラス設定において優れた性能を実現する。
- 参考スコア(独自算出の注目度): 1.1242490155213278
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose HILBERT (HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training), a cross-attentive multimodal framework for learning document-level audio-text representations from long, segmented sequences in low-resource data settings. HILBERT leverages frozen pre-trained speech and language encoders to extract segment-level features, which are aggregated via cross-modal attention and self-attentive pooling to form modality-specific document representations and a joint cross-attentive embedding. To align modalities while preserving modality-specific structure under severe audio-text dimensional imbalance, we introduce a reciprocal dual contrastive objective that simultaneously aligns audio-to-joint and text-to-joint representations, rather than directly contrasting audio and text alone. Two auxiliary regularizers further stabilize long-sequence fusion: a Centered Kernel Alignment (CKA) loss that preserves structural consistency between each modality and the joint embedding, and a mutual information balancing loss that prevents dominance of a single modality by equalizing information flow from audio and text into the joint space. For downstream prediction, HILBERT employs a Mixture-of-Experts (MoE) classifier over concatenated audio, text, and joint representations to accommodate heterogeneous label regimes. Extensive evaluation across multiple audio-text backbone combinations demonstrates that HILBERT learns semantically meaningful long-sequence representations and achieves superior performance on highly imbalanced multi-class settings.
- Abstract(参考訳): HILBERT (hierarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training) は、低リソースデータ設定において、長いセグメント化されたシーケンスから文書レベルの音声テキスト表現を学習するためのクロスアテンティブなマルチモーダルフレームワークである。
HILBERTは、凍結した事前学習された音声と言語エンコーダを利用してセグメントレベルの特徴を抽出する。
重大な音声-テキスト-次元不均衡の下でモーダル性固有の構造を保ちながら、モダリティの整合性を保つために、音声とテキストを直接対比するのではなく、音声-結合とテキスト-結合の両表現を同時に整合する相互二重コントラスト的目的を導入する。
2つの補助正規化器は、各モダリティと関節埋め込みの間の構造的整合性を維持するセンタードカーネルアライメント(CKA)損失と、音声とテキストから関節空間に流れる情報の流れを等しくすることで、単一モダリティの優位性を妨げる相互情報バランシング損失である。
下流の予測のために、HILBERTは、異種ラベルの規則を満たすために、結合された音声、テキスト、共同表現にMixture-of-Experts (MoE)分類器を使用している。
複数のオーディオ・テキスト・バックボーンの組み合わせに対する広範囲な評価は、HILBERTが意味論的に意味のあるロングシーケンス表現を学習し、高度に不均衡なマルチクラス設定において優れたパフォーマンスを達成することを示す。
関連論文リスト
- Hierarchical Semantic Correlation-Aware Masked Autoencoder for Unsupervised Audio-Visual Representation Learning [3.055416693231887]
本稿では,3つの相補的な表現レベルにまたがって意味的一貫性を強制する2経路教師学生フレームワークを提案する。
AVEとVEGASの実験では、強い教師なしベースラインよりも大幅にmAPが改善された。
論文 参考訳(メタデータ) (2026-04-05T19:08:51Z) - CAE-AV: Improving Audio-Visual Learning via Cross-modal Interactive Enrichment [12.793962173450494]
本稿では,音声視覚学習のための新しいキャプション・アラインメント・アンド・コンセンサス・ガイダンス・エンハンスメント・フレームワーク(CAE-AV)を提案する。
2つの補完モジュール:クロスモーダル・コンセンサス・ガイド付き時空強化(CASTE)とキャプション・アライン・サリエンシ・ガイダンス・エンリッチメント(CASE)
CASTEは、フレームレベルのオーディオ・視覚的合意を評価することで空間的・時間的関係をバランスさせ、キー情報が前と後の両方のフレームから不正に取得されることを保証する。
症例は、選択された時間的位置に対して、横断的意味指導を注入し、高いレベルの意味的手がかりを活用して、不一致を緩和する。
論文 参考訳(メタデータ) (2026-02-09T06:30:25Z) - Decoupled Audio-Visual Dataset Distillation [44.63243875072762]
本稿では,事前学習に基づくオーディオ-視覚蒸留フレームワークであるDAVDDを提案する。
これらの課題に対処するため、プレトレーニングベースで分離されたオーディオ視覚蒸留フレームワークであるDAVDDを提案する。
論文 参考訳(メタデータ) (2025-11-22T02:36:50Z) - FLUID: Flow-Latent Unified Integration via Token Distillation for Expert Specialization in Multimodal Learning [1.912429179274357]
token Distillation for Expert Components を用いた textscFLUID-Flow-Latent Unified Integration を提案する。
textscFLUID は,(1) emphQ-transforms, 学習可能なクエリトークン, (2) コントラストアライメントによる相互整合を強制する2段階の融合スキーム, (3) 予測時の軽量でロードバランスのMixture-of-Experts の3要素に寄与する。
論文 参考訳(メタデータ) (2025-08-10T09:34:17Z) - GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。
これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。
提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文 参考訳(メタデータ) (2025-06-13T03:19:47Z) - Text-Queried Audio Source Separation via Hierarchical Modeling [53.94434504259829]
本研究では,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。
Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。
本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T11:00:38Z) - Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシーシュワルツの発散を相互情報と統合して視覚言語アライメントを行う新しいフレームワークを提案する。
CS分散はInfoNCEのアライメント・ユニフォーム性競合にシームレスに対処し,InfoNCEと補完的な役割を担っていることがわかった。
テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文 参考訳(メタデータ) (2025-02-24T10:29:15Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。