論文の概要: LEGO: Learnable Expansion of Graph Operators for Multi-Modal Feature Fusion
- arxiv url: http://arxiv.org/abs/2410.01506v2
- Date: Thu, 3 Oct 2024 05:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:24:31.139053
- Title: LEGO: Learnable Expansion of Graph Operators for Multi-Modal Feature Fusion
- Title(参考訳): LEGO:マルチモーダル機能融合のためのグラフ演算子の学習可能な拡張
- Authors: Dexuan Ding, Lei Wang, Liyun Zhu, Tom Gedeon, Piotr Koniusz,
- Abstract要約: コンピュータビジョンタスクでは、機能はしばしばテキスト、画像、ビデオなどの様々な表現、ドメイン、モダリティから来る。
本稿では,高次元の特徴空間から,類似性グラフを構成することで,より低次元の解釈可能なグラフ空間へシフトする。
我々のアプローチは関係中心であり、均質な空間で機能し、数学的に原理化されている。
- 参考スコア(独自算出の注目度): 32.09145985103859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In computer vision tasks, features often come from diverse representations, domains, and modalities, such as text, images, and videos. Effectively fusing these features is essential for robust performance, especially with the availability of powerful pre-trained models like vision-language models. However, common fusion methods, such as concatenation, element-wise operations, and non-linear techniques, often fail to capture structural relationships, deep feature interactions, and suffer from inefficiency or misalignment of features across domains. In this paper, we shift from high-dimensional feature space to a lower-dimensional, interpretable graph space by constructing similarity graphs that encode feature relationships at different levels, e.g., clip, frame, patch, token, etc. To capture deeper interactions, we use graph power expansions and introduce a learnable graph fusion operator to combine these graph powers for more effective fusion. Our approach is relationship-centric, operates in a homogeneous space, and is mathematically principled, resembling element-wise similarity score aggregation via multilinear polynomials. We demonstrate the effectiveness of our graph-based fusion method on video anomaly detection, showing strong performance across multi-representational, multi-modal, and multi-domain feature fusion tasks.
- Abstract(参考訳): コンピュータビジョンタスクでは、機能はしばしばテキスト、画像、ビデオなどの様々な表現、ドメイン、モダリティから来る。
これらの機能を効果的に融合させることは、堅牢なパフォーマンス、特に視覚言語モデルのような強力な事前学習モデルの実現に不可欠である。
しかし、結合、要素演算、非線形技術といった一般的な融合法は、しばしば構造的関係、深い特徴的相互作用を捉えず、ドメイン間の機能の非効率性や不整合に悩まされる。
本稿では,高次元の特徴空間から低次元の解釈可能なグラフ空間へ移行し,例えば,クリップ,フレーム,パッチ,トークンなどの異なるレベルの特徴関係を符号化する類似性グラフを構築する。
より深い相互作用を捉えるために、我々はグラフパワー拡張を使用し、より効果的な融合のためにこれらのグラフパワーを組み合わせるために学習可能なグラフ融合演算子を導入します。
我々のアプローチは関係中心であり、等質な空間で作用し、数学的に原理化され、多線型多項式による要素的類似度スコアアグリゲーションに類似している。
ビデオ異常検出におけるグラフベース融合法の有効性を実証し,マルチ表現,マルチモーダル,マルチドメイン機能融合タスクにおいて高い性能を示す。
関連論文リスト
- From Primes to Paths: Enabling Fast Multi-Relational Graph Analysis [5.008498268411793]
マルチリレーショナルネットワークは、データの複雑な関係を捉え、バイオメディカル、ファイナンシャル、社会科学などの分野にまたがる多様な応用を持つ。
この研究は、ネットワーク内の異なる関係をユニークに表現するために素数を使用するプライム・アジャケーシ・マトリクス・フレームワークを拡張している。
論文 参考訳(メタデータ) (2024-11-17T18:43:01Z) - MS-IMAP -- A Multi-Scale Graph Embedding Approach for Interpretable Manifold Learning [1.8124328823188354]
本稿では,スペクトルグラフウェーブレットに基づくマルチスケールグラフネットワークの埋め込みフレームワークを提案する。
グラフ上のパリー・ウィーナー空間において、スペクトルグラフウェーブレット作用素は滑らかさよりも柔軟性と制御性が高いことを示す。
提案した埋め込みのさらなる利点は、埋め込みと入力特徴空間の対応性を確立する能力である。
論文 参考訳(メタデータ) (2024-06-04T20:48:33Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Hierarchical Aggregations for High-Dimensional Multiplex Graph Embedding [7.271256448682229]
HMGEは高次元多重グラフの階層的アグリゲーションに基づく新しい埋め込み手法である。
我々は、ローカルパッチとグローバルサマリー間の相互情報を活用して、監督なしにモデルを訓練する。
合成および実世界のデータに関する詳細な実験は、下流監視タスクに対する我々のアプローチの適合性を示している。
論文 参考訳(メタデータ) (2023-12-28T05:39:33Z) - Efficient Graphics Representation with Differentiable Indirection [17.025494260380476]
差別化可能な間接(di differentiable indirection) - 差別化可能なマルチスケールルックアップテーブルを使用する新しい学習プリミティブ。
あらゆる場合において、微分可能な間接は既存のアーキテクチャにシームレスに統合され、迅速に訓練され、多目的かつ効率的な結果をもたらす。
論文 参考訳(メタデータ) (2023-09-12T16:05:45Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - FMGNN: Fused Manifold Graph Neural Network [102.61136611255593]
グラフ表現学習は、様々なグラフタスクにおいて広く研究され、効果が実証されている。
本稿では,異なるマニフォールドにグラフを埋め込む新しいGNNアーキテクチャであるFused Manifold Graph Neural Network (NN)を提案する。
提案実験により,NNはノード分類およびリンク予測タスクのベンチマークにおいて,強いベースラインよりも優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2023-04-03T15:38:53Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z) - Multi-view Graph Learning by Joint Modeling of Consistency and
Inconsistency [65.76554214664101]
グラフ学習は、複数のビューから統一的で堅牢なグラフを学ぶ能力を備えた、マルチビュークラスタリングのための有望なテクニックとして登場した。
本稿では,統合目的関数における多視点一貫性と多視点不整合を同時にモデル化する,新しい多視点グラフ学習フレームワークを提案する。
12のマルチビューデータセットに対する実験は、提案手法の堅牢性と効率性を実証した。
論文 参考訳(メタデータ) (2020-08-24T06:11:29Z) - GraphOpt: Learning Optimization Models of Graph Formation [72.75384705298303]
本稿では,グラフ構造形成の暗黙的モデルを学ぶエンドツーエンドフレームワークを提案し,その基盤となる最適化機構を明らかにする。
学習した目的は、観測されたグラフプロパティの説明として機能し、ドメイン内の異なるグラフを渡すために自分自身を貸すことができる。
GraphOptは、グラフ内のリンク生成をシーケンシャルな意思決定プロセスとして、最大エントロピー逆強化学習アルゴリズムを用いて解決する。
論文 参考訳(メタデータ) (2020-07-07T16:51:39Z) - Tensor Graph Convolutional Networks for Multi-relational and Robust
Learning [74.05478502080658]
本稿では,テンソルで表されるグラフの集合に関連するデータから,スケーラブルな半教師付き学習(SSL)を実現するためのテンソルグラフ畳み込みネットワーク(TGCN)を提案する。
提案アーキテクチャは、標準的なGCNと比較して大幅に性能が向上し、最先端の敵攻撃に対処し、タンパク質間相互作用ネットワーク上でのSSL性能が著しく向上する。
論文 参考訳(メタデータ) (2020-03-15T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。