Fugu-MT 論文翻訳(概要): Modality-Guided Mixture of Graph Experts with Entropy-Triggered Routing for Multimodal Recommendation

論文の概要: Modality-Guided Mixture of Graph Experts with Entropy-Triggered Routing for Multimodal Recommendation

arxiv url: http://arxiv.org/abs/2602.20723v2
Date: Thu, 26 Feb 2026 03:12:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 14:31:23.914298
Title: Modality-Guided Mixture of Graph Experts with Entropy-Triggered Routing for Multimodal Recommendation
Title（参考訳）: マルチモーダルレコメンデーションのためのエントロピートリガー付きグラフエキスパートのモダリティ誘導混合
Authors: Ji Dai, Quan Fang, Dengsheng Cai,
Abstract要約: マルチモーダルレコメンデーションは、ユーザ-イテムインタラクションとアイテムコンテンツを統合することでランキングを強化する。既存のアプローチは、しばしば共有融合経路に依存し、絡み合った表現とモダリティの不均衡をもたらす。マルチモーダルレコメンデーションのためのプログレッシブエントロピートリガー付きルーティングを用いた適応グラフエキスパートネットワークのモダリティ誘導混合を提案する。
参考スコア（独自算出の注目度）: 6.815406906400871
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal recommendation enhances ranking by integrating user-item interactions with item content, which is particularly effective under sparse feedback and long-tail distributions. However, multimodal signals are inherently heterogeneous and can conflict in specific contexts, making effective fusion both crucial and challenging. Existing approaches often rely on shared fusion pathways, leading to entangled representations and modality imbalance. To address these issues, we propose MAGNET, a Modality-Guided Mixture of Adaptive Graph Experts Network with Progressive Entropy-Triggered Routing for Multimodal Recommendation, designed to enhance controllability, stability, and interpretability in multimodal fusion. MAGNET couples interaction-conditioned expert routing with structure-aware graph augmentation, so that both what to fuse and how to fuse are explicitly controlled and interpretable. At the representation level, a dual-view graph learning module augments the interaction graph with content-induced edges, improving coverage for sparse and long-tail items while preserving collaborative structure via parallel encoding and lightweight fusion. At the fusion level, MAGNET employs structured experts with explicit modality roles-dominant, balanced, and complementary-enabling a more interpretable and adaptive combination of behavioral, visual, and textual cues. To further stabilize sparse routing and prevent expert collapse, we introduce a two-stage entropy-weighting mechanism that monitors routing entropy. This mechanism automatically transitions training from an early coverage-oriented regime to a later specialization-oriented regime, progressively balancing expert utilization and routing confidence. Extensive experiments on public benchmarks demonstrate consistent improvements over strong baselines.
Abstract（参考訳）: マルチモーダルレコメンデーションは、アイテムコンテンツとユーザとイテムのインタラクションを統合することでランク付けを強化し、特にスパースフィードバックやロングテール分布において有効である。しかし、マルチモーダル信号は本質的に異質であり、特定の文脈で衝突しうるため、効果的な融合は決定的かつ困難である。既存のアプローチは、しばしば共有融合経路に依存し、絡み合った表現とモダリティの不均衡をもたらす。これらの課題に対処するため,マルチモーダルフュージョンにおける制御性,安定性,解釈性を向上させるために,多モーダルリコメンデーションのためのプログレッシブエントロピートリガー付き適応グラフエキスパートネットワークのModality-Guided Mixture of Adaptive Graph Experts Networkを提案する。 MAGNETは、相互作用条件付きエキスパートルーティングと構造対応グラフ拡張を結合することで、ヒューズとヒューズの両方が明示的に制御され、解釈可能である。表現レベルでは、デュアルビューグラフ学習モジュールは、コンテンツによって引き起こされるエッジとの相互作用グラフを強化し、並列エンコーディングと軽量融合による協調構造を維持しながら、スパースアイテムとロングテールアイテムのカバレッジを改善します。融合レベルでは、MAGNETは明示的なモダリティの役割が支配的であり、バランスが取れ、補完的な役割を持つ構造化された専門家を雇い、より解釈可能で適応的な行動、視覚、およびテキストの手がかりの組み合わせを創出する。さらにスパースルーティングの安定化と専門家の崩壊を防止するため,ルーティングのエントロピーを監視する2段階のエントロピー重み付け機構を導入する。このメカニズムは、トレーニングを初期のカバレッジ指向のシステムから後の特殊化指向のシステムに自動的に移行し、専門家の活用とルーティングの信頼性を段階的にバランスさせる。公開ベンチマークに関する大規模な実験は、強いベースラインよりも一貫した改善を示している。

関連論文リスト

Cross-Modal Attention Network with Dual Graph Learning in Multimodal Recommendation [12.802844514133255]
二重グラフ埋め込み(CRANE)を用いたクロスモーダル再帰注意ネットワーク我々は,共同潜在空間における相互相関に基づくモダリティ特徴を反復的に洗練するコア再帰的クロスモーダルアテンション(RCA)機構を設計する。対称型マルチモーダル学習では,対話した項目の特徴を集約することで,ユーザのマルチモーダルプロファイルを明示的に構築する。
論文参考訳（メタデータ） (2026-01-16T10:09:39Z)
Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文参考訳（メタデータ） (2025-12-08T05:04:54Z)
UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文参考訳（メタデータ） (2025-09-28T09:11:30Z)
EGRA:Toward Enhanced Behavior Graphs and Representation Alignment for Multimodal Recommendation [50.848374648774374]
MMR(MultiModal Recommendation)システムは、リッチな項目側モダリティ情報を活用することで、推奨品質を改善するための有望なソリューションとして登場した。本稿では,事前学習したMMRモデルにより生成された表現から構築されたアイテム-イムグラフの挙動グラフを組み込んだEGRAを提案する。また、両レベルの動的アライメント重み付け機構を導入し、モダリティ・ビヘイビアのアライメントアライメントを改善する。
論文参考訳（メタデータ） (2025-08-22T07:47:54Z)
Hypercomplex Prompt-aware Multimodal Recommendation [6.862998546677475]
提案するHPMRecは,ハイパーコンプレックスなマルチモーダルレコメンデーションフレームワークである。我々は,HPMRecが4つの公開データセットの実験において,最先端のレコメンデーション性能を達成することを示す。
論文参考訳（メタデータ） (2025-08-14T15:36:00Z)
FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。 Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文参考訳（メタデータ） (2025-07-07T04:09:45Z)
Gated Recursive Fusion: A Stateful Approach to Scalable Multimodal Transformers [0.0]
Gated Recurrent Fusion(GRF)は、線形にスケーラブルで再帰的なパイプライン内で、モーダル間注目のパワーをキャプチャする新しいアーキテクチャである。我々の研究は、強力でスケーラブルなマルチモーダル表現学習のための堅牢で効率的なパラダイムを提示している。
論文参考訳（メタデータ） (2025-07-01T09:33:38Z)
Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。本稿では,Co-AttenDWGを提案する。我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文参考訳（メタデータ） (2025-05-25T07:26:00Z)
Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization [66.10528870853324]
高精度な予測タスクのための新しいセンサからのマルチモーダル入力の再利用とバランスが重要である。 1つの大きな制限は、マルチモーダルフレームワークが容易に学習可能なモダリティに過度に依存する傾向があることである。本稿では,機能的エントロピーに基づくプラグ・アンド・プレイ正規化項を提案する。
論文参考訳（メタデータ） (2025-05-10T12:58:15Z)
Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシーシュワルツの発散を相互情報と統合して視覚言語アライメントを行う新しいフレームワークを提案する。 CS分散はInfoNCEのアライメント・ユニフォーム性競合にシームレスに対処し,InfoNCEと補完的な役割を担っていることがわかった。テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文参考訳（メタデータ） (2025-02-24T10:29:15Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Patch-level Neighborhood Interpolation: A General and Effective Graph-based Regularization Strategy [77.34280933613226]
我々は、ネットワークの計算において非局所的な表現を行うtextbfPatch-level Neighborhood Interpolation(Pani)と呼ばれる一般的な正規化器を提案する。提案手法は,異なる層にパッチレベルグラフを明示的に構築し,その近傍のパッチ特徴を線形に補間し,汎用的で効果的な正規化戦略として機能する。
論文参考訳（メタデータ） (2019-11-21T06:31:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。