論文の概要: Asymmetric Hierarchical Anchoring for Audio-Visual Joint Representation: Resolving Information Allocation Ambiguity for Robust Cross-Modal Generalization
- arxiv url: http://arxiv.org/abs/2602.03570v1
- Date: Tue, 03 Feb 2026 14:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.505573
- Title: Asymmetric Hierarchical Anchoring for Audio-Visual Joint Representation: Resolving Information Allocation Ambiguity for Robust Cross-Modal Generalization
- Title(参考訳): 音声・視覚的関節表現のための非対称階層的アンコリング:ロバストなクロスモーダル一般化のための情報配置の曖昧さの解消
- Authors: Bixing Wu, Yuhong Zhao, Zongli Ye, Jiachen Lian, Xiangyu Yue, Gopala Anumanchipalli,
- Abstract要約: 指向性情報アロケーションを強制するための非対称階層的アンコリング(AHA)を提案する。
我々は、脆弱な相互情報推定装置を、意味的漏洩を明示的に抑制するGRLベースの逆分離器に置き換える。
AHAは、クロスモーダル移動において対称基底線を一貫して上回る。
- 参考スコア(独自算出の注目度): 19.721857318111734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual joint representation learning under Cross-Modal Generalization (CMG) aims to transfer knowledge from a labeled source modality to an unlabeled target modality through a unified discrete representation space. Existing symmetric frameworks often suffer from information allocation ambiguity, where the absence of structural inductive bias leads to semantic-specific leakage across modalities. We propose Asymmetric Hierarchical Anchoring (AHA), which enforces directional information allocation by designating a structured semantic anchor within a shared hierarchy. In our instantiation, we exploit the hierarchical discrete representations induced by audio Residual Vector Quantization (RVQ) to guide video feature distillation into a shared semantic space. To ensure representational purity, we replace fragile mutual information estimators with a GRL-based adversarial decoupler that explicitly suppresses semantic leakage in modality-specific branches, and introduce Local Sliding Alignment (LSA) to encourage fine-grained temporal alignment across modalities. Extensive experiments on AVE and AVVP benchmarks demonstrate that AHA consistently outperforms symmetric baselines in cross-modal transfer. Additional analyses on talking-face disentanglement experiment further validate that the learned representations exhibit improved semantic consistency and disentanglement, indicating the broader applicability of the proposed framework.
- Abstract(参考訳): CMG(Cross-Modal Generalization)の下での視覚的共同表現学習は、ラベル付きソースモダリティから、統一された離散表現空間を通してラベル付きターゲットモダリティに知識を伝達することを目的としている。
既存の対称フレームワークは情報割り当ての曖昧さに悩まされることが多く、構造的帰納的バイアスが欠如しているため、モダリティ全体にわたって意味論的に漏洩する。
共有階層内の構造的セマンティックアンカーを指定することにより、方向情報アロケーションを強制する非対称階層的アンカリング(AHA)を提案する。
我々は,音声残差ベクトル量子化(RVQ)によって誘導される階層的な離散表現を利用して,ビデオ特徴蒸留を共有意味空間に誘導する。
表現の純度を確保するため, フレキシブルな相互情報推定器をGRLに基づく逆方向分離器に置き換え, 局所スライディングアライメント(LSA)を導入し, モーダル性間の微粒な時間的アライメントを促進する。
AVEおよびAVVPベンチマークの大規模な実験は、AHAがクロスモーダル転送において対称基底線を一貫して上回ることを示した。
会話・顔の絡み合い実験のさらなる分析により、学習された表現が意味的一貫性と絡み合いを向上し、提案フレームワークのより広範な適用性を示すことが確認された。
関連論文リスト
- SGHA-Attack: Semantic-Guided Hierarchical Alignment for Transferable Targeted Attacks on Vision-Language Models [73.19044613922911]
大規模視覚言語モデル(VLM)は、転送ベースの対向摂動に対して脆弱である。
SGHA-Attackは、複数のターゲット参照を採用し、中間層一貫性を強制するフレームワークである。
オープンソースおよび商用のブラックボックスVLMの実験は、SGHA-Attackが従来の方法よりも強力な目標転送性を実現することを示している。
論文 参考訳(メタデータ) (2026-02-02T03:10:41Z) - Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition [19.200074425090595]
本稿では,2次幾何統計フレームワークを提案する。
提案手法では、固定されたトレーニング済みのバックボーン上に構築されたトレーニング不要のフレームワークを導入し、パラメータ更新なしで強力なゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2026-01-31T18:12:29Z) - Training-Free Representation Guidance for Diffusion Models with a Representation Alignment Projector [14.027059904924135]
本稿では,プロジェクタによって予測される表現を中間サンプリングステップに注入するアライメントアライメントプロジェクタを提案する。
SiTとREPAの実験は、クラス条件の画像ネット合成において顕著に改善されている。
提案手法は,SiTモデルに適用した場合の代表的なガイダンスより優れる。
論文 参考訳(メタデータ) (2026-01-30T02:29:54Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Latent Diffusion Model Based Denoising Receiver for 6G Semantic Communication: From Stochastic Differential Theory to Application [11.385703484113552]
生成人工知能(GAI)を利用した新しい意味コミュニケーションフレームワークを提案する。
意味的特徴抽出のための変分オートエンコーダを組み合わせた潜在拡散モデル(LDM)に基づくセマンティックコミュニケーションフレームワークを提案する。
提案システムはゼロショットの一般化をサポートし,低SNRおよびアウト・オブ・ディストリビューション条件下での優れた性能を実現する訓練自由フレームワークである。
論文 参考訳(メタデータ) (2025-06-06T03:20:32Z) - Sparsification and Reconstruction from the Perspective of Representation Geometry [10.834177456685538]
スパースオートエンコーダ (SAE) は機械的解釈可能性において主要なツールである。
本研究は,表現幾何学の観点から,空間の原理を説明する。
具体的には、表現を理解し、表現の制約を取り入れることの必要性を強調している。
論文 参考訳(メタデータ) (2025-05-28T15:54:33Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Prompt-based Logical Semantics Enhancement for Implicit Discourse
Relation Recognition [4.7938839332508945]
Inlicit Discourse Relation Recognition (IDRR) のための Prompt-based Logical Semantics Enhancement (PLSE) 法を提案する。
提案手法は,事前学習した言語モデルに対する対話関係に関する知識を,素早い接続予測によってシームレスに注入する。
PDTB 2.0 と CoNLL16 データセットによる実験結果から,本手法は現状の最先端モデルに対して優れた一貫した性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-11-01T08:38:08Z) - Learning Aligned Cross-Modal Representation for Generalized Zero-Shot
Classification [17.177622259867515]
一般化ゼロショット分類(GZSC)のためのアラインド・クロスモーダル表現(adigned Cross-Modal Representations, ACMR)の学習による革新的オートエンコーダネットワークを提案する。
具体的には,学習型分類器によって導かれる潜在部分空間上でのクロスモーダルな潜在特徴のアライメントを強化するために,新しい視覚・セマンティックアライメント(VSA)法を提案する。
さらに,潜伏変数の識別能力を高めるとともに,潜伏変数が崩壊する可能性を低減するための新しい情報拡張モジュール (IEM) を提案する。
論文 参考訳(メタデータ) (2021-12-24T03:35:37Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。