論文の概要: Learning Audio-Visual Embeddings with Inferred Latent Interaction Graphs
- arxiv url: http://arxiv.org/abs/2601.11995v1
- Date: Sat, 17 Jan 2026 10:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.409307
- Title: Learning Audio-Visual Embeddings with Inferred Latent Interaction Graphs
- Title(参考訳): Inferred Latent Interaction Graphsを用いたオーディオ-ビジュアル埋め込みの学習
- Authors: Donghuo Zeng, Hao Niu, Yanan Wang, Masato Taya,
- Abstract要約: 最も対照的で三重奏法は、クリップごとにスパースアノテートされたラベルを使用し、どんな共起も意味的類似性として扱う。
本稿では,これらの問題に対処するために,ソフトラベル予測と推論潜在相互作用を利用するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.563533024286367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning robust audio-visual embeddings requires bringing genuinely related audio and visual signals together while filtering out incidental co-occurrences - background noise, unrelated elements, or unannotated events. Most contrastive and triplet-loss methods use sparse annotated labels per clip and treat any co-occurrence as semantic similarity. For example, a video labeled "train" might also contain motorcycle audio and visual, because "motorcycle" is not the chosen annotation; standard methods treat these co-occurrences as negatives to true motorcycle anchors elsewhere, creating false negatives and missing true cross-modal dependencies. We propose a framework that leverages soft-label predictions and inferred latent interactions to address these issues: (1) Audio-Visual Semantic Alignment Loss (AV-SAL) trains a teacher network to produce aligned soft-label distributions across modalities, assigning nonzero probability to co-occurring but unannotated events and enriching the supervision signal. (2) Inferred Latent Interaction Graph (ILI) applies the GRaSP algorithm to teacher soft labels to infer a sparse, directed dependency graph among classes. This graph highlights directional dependencies (e.g., "Train (visual)" -> "Motorcycle (audio)") that expose likely semantic or conditional relationships between classes; these are interpreted as estimated dependency patterns. (3) Latent Interaction Regularizer (LIR): A student network is trained with both metric loss and a regularizer guided by the ILI graph, pulling together embeddings of dependency-linked but unlabeled pairs in proportion to their soft-label probabilities. Experiments on AVE and VEGAS benchmarks show consistent improvements in mean average precision (mAP), demonstrating that integrating inferred latent interactions into embedding learning enhances robustness and semantic coherence.
- Abstract(参考訳): 堅牢なオーディオと視覚の埋め込みを学ぶには、真に関連のあるオーディオと視覚の信号をまとめながら、バックグラウンドノイズ、無関係な要素、または注釈のないイベントをフィルタリングする必要がある。
最も対照的で三重奏法は、クリップごとにスパースアノテートされたラベルを使用し、どんな共起も意味的類似性として扱う。
例えば、「トレイン」というラベルの付いたビデオにはオートバイのオーディオと視覚が含まれており、これは「モーターサイクル」が選択されたアノテーションではないためである。
1) 教師ネットワークに教師ネットワークを訓練し、モダリティ間で整列したソフトラベル分布を生成し、非ゼロ確率を共起イベントに割り当て、監視信号の強化を行う。
2) Inferred Latent Interaction Graph (ILI) はGRaSPアルゴリズムをソフトラベルの教師に応用し,クラス間の疎結合依存グラフを推定する。
このグラフは、クラス間の潜在的な意味的あるいは条件的関係を明らかにする方向依存(例えば、"Train (visual)" -> "Motorcycle (audio)")を強調します。
(3)潜時相互作用規則化器(LIR):学生ネットワークは、ILIグラフで導かれる測度損失と正則化器の両方を訓練し、そのソフトラベルの確率に比例して、依存性がリンクされているがラベルのないペアの埋め込みをまとめる。
AVEとVEGASベンチマークの実験では、平均平均精度(mAP)が一貫した改善を示し、推論された遅延相互作用を埋め込み学習に統合することで、堅牢性とセマンティックコヒーレンスが向上することを示した。
関連論文リスト
- Bridging Weakly-Supervised Learning and VLM Distillation: Noisy Partial Label Learning for Efficient Downstream Adaptation [51.67328507400985]
ノイズ部分ラベル学習(NPLL)では、各トレーニングサンプルは、複数のノイズアノテータによって注釈付けされた候補ラベルのセットに関連付けられている。
本稿では、事前学習された視覚言語モデルによって注釈付けされた部分ラベルからの学習に焦点を当てる。
革新的な協調整合正則化(Co-Reg)法を提案する。
論文 参考訳(メタデータ) (2025-06-03T12:48:54Z) - Weakly-Supervised Contrastive Learning for Imprecise Class Labels [50.57424331797865]
正対と負対を定義するために「連続的意味的類似性」の概念を導入する。
弱教師付きコントラスト学習のためのグラフ理論フレームワークを提案する。
我々のフレームワークは非常に多用途であり、多くの弱い教師付き学習シナリオに適用できる。
論文 参考訳(メタデータ) (2025-05-28T06:50:40Z) - Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning [2.6790916541909437]
メトリクス学習は、類似点と相違点が定量化される組込み空間にサンプルを投影する。
本稿では, クロスモーダル三重項損失とプログレッシブ自己蒸留を統合した新しいアーキテクチャを提案する。
各バッチのサブセットにアノテートされたラベルからオーディオ視覚分布に基づく知識を抽出する。
論文 参考訳(メタデータ) (2025-01-16T15:32:41Z) - FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced
Context-Aware Network [48.912196729711624]
Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、わずかに注釈付きサポートイメージで検索するタスクである。
本稿では,クラス間の類似性に起因するマッチングノイズを抑制するために,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。
さらに,前景と背景の余分な対応関係を符号化する新たな相関再構成モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-19T16:31:13Z) - Joint Class-Affinity Loss Correction for Robust Medical Image
Segmentation with Noisy Labels [22.721870430220598]
ノイズラベルは 医用画像分割アルゴリズムが 正確な意味的相関を 学習するのを防いでいる
画素ワイズとペアワイズの両方を取り入れたノイズ緩和のための新しい視点を提案する。
医用画像のセグメンテーションにおけるラベルノイズ問題に対処する頑健なジョイントクラスアフィニティ(JCAS)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T08:19:33Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Noise-robust Graph Learning by Estimating and Leveraging Pairwise
Interactions [123.07967420310796]
本稿では,グラフ上のノイズノード分類のためのペアワイズフレームワークを提案することにより,そのギャップを埋める。
PI-GNNは、ノイズの多いノードクラスラベルからのポイントワイズ学習に加えて、PIを一次学習プロキシとして依存している。
提案するフレームワークPI-GNNは,(1)PIラベルを適応的に推定する信頼度を考慮したPI推定モデル,(2)PIラベルを推定する疎結合トレーニング手法の2つの新しい構成要素に寄与する。
論文 参考訳(メタデータ) (2021-06-14T14:23:08Z) - Unified Robust Training for Graph NeuralNetworks against Label Noise [12.014301020294154]
半監督設定でノイズの多いラベルをグラフ上で学習するための新しいフレームワークである UnionNET を提案します。
提案手法は,GNNを頑健に訓練し,ラベル修正を同時に行うための統一的なソリューションを提供する。
論文 参考訳(メタデータ) (2021-03-05T01:17:04Z) - Knowledge-Guided Multi-Label Few-Shot Learning for General Image
Recognition [75.44233392355711]
KGGRフレームワークは、ディープニューラルネットワークと統計ラベル相関の事前知識を利用する。
まず、統計ラベルの共起に基づいて異なるラベルを相関させる構造化知識グラフを構築する。
次に、ラベルセマンティクスを導入し、学習セマンティクス固有の特徴をガイドする。
グラフノードの相互作用を探索するためにグラフ伝搬ネットワークを利用する。
論文 参考訳(メタデータ) (2020-09-20T15:05:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。