論文の概要: CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2602.19140v1
- Date: Sun, 22 Feb 2026 12:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.499895
- Title: CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion
- Title(参考訳): CaReFlow:マルチモーダル核融合のためのサイクル適応整流
- Authors: Sijie Mai, Shiqin Han,
- Abstract要約: モダリティギャップはマルチモーダル核融合の有効性を著しく制限する。
従来の手法では、拡散モデルや逆学習といった手法を用いて、モダリティギャップを減らすことが多かった。
- 参考スコア(独自算出の注目度): 6.3310165899037045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modality gap significantly restricts the effectiveness of multimodal fusion. Previous methods often use techniques such as diffusion models and adversarial learning to reduce the modality gap, but they typically focus on one-to-one alignment without exposing the data points of the source modality to the global distribution information of the target modality. To this end, leveraging the characteristic of rectified flow that can map one distribution to another via a straight trajectory, we extend rectified flow for modality distribution mapping. Specifically, we leverage the `one-to-many mapping' strategy in rectified flow that allows each data point of the source modality to observe the overall target distribution. This also alleviates the issue of insufficient paired data within each sample, enabling a more robust distribution transformation. Moreover, to achieve more accurate distribution mapping and address the ambiguous flow directions in one-to-many mapping, we design `adaptive relaxed alignment', enforcing stricter alignment for modality pairs belonging to the same sample, while applying relaxed mapping for pairs not belonging to the same sample or category. Additionally, to prevent information loss during distribution mapping, we introduce `cyclic rectified flow' to ensure the transferred features can be translated back to the original features, allowing multimodal representations to learn sufficient modality-specific information. After distribution alignment, our approach achieves very competitive results on multiple tasks of multimodal affective computing even with a simple fusion method, and visualizations verify that it can effectively reduce the modality gap.
- Abstract(参考訳): モダリティギャップはマルチモーダル核融合の有効性を著しく制限する。
従来の手法では拡散モデルや逆学習といった手法を用いてモダリティのギャップを減らしているが、典型的には、ターゲットのモダリティのグローバルな分布情報にソースのモダリティのデータポイントを露出させることなく、1対1のアライメントに集中する。
この目的のために, 直進軌道を通した分布を他へマッピングできる整流流の特性を利用して, 整流流を拡張し, モジュラリティ分布のマッピングを行う。
具体的には、ソースモーダルの各データポイントが全体の目標分布を観測できるように、正流の「一対一のマッピング」戦略を利用する。
これにより、各サンプル内でのペアデータ不足の問題も軽減され、より堅牢な分散変換が可能になる。
さらに,1対1のマッピングにおいて,より正確な分布マッピングを実現し,あいまいな流れ方向に対応するために,同じサンプルに属するモダリティ対に対してより厳密なアライメントを施した'適応緩和アライメント'を設計し,同じサンプルやカテゴリに属しないペアに対して緩和アライメントマッピングを適用した。
さらに,分布図作成時の情報損失を防止するため,移動した特徴を元の特徴に戻すための「循環的整流」を導入し,マルチモーダル表現が十分なモダリティ固有情報を学習できるようにする。
分布アライメント後, 単純な融合法でもマルチモーダル感情計算の複数のタスクにおいて非常に競合的な結果が得られ, 可視化により, モダリティギャップを効果的に低減できることを確認した。
関連論文リスト
- Test-time scaling of diffusions with flow maps [68.79792714591564]
テスト時の拡散モデルを改善するための一般的なレシピは、報酬の勾配を拡散そのものの力学に導入することである。
フローマップを直接扱うことで,簡単な解を提案する。
本研究では, 流図と流速場の関係を利用して, 従来のテスト時間法よりも精度の高いフローマップトラジェクトリ・ティルティング (FMTT) アルゴリズムを構築した。
論文 参考訳(メタデータ) (2025-11-27T18:44:12Z) - Calibrated Multimodal Representation Learning with Missing Modalities [100.55774771852468]
マルチモーダル表現学習は、それらを統一潜在空間に整列させることにより、異なるモダリティを調和させる。
最近の研究は、従来のクロスモーダルアライメントを一般化して、強化されたマルチモーダル・シナジーを生成するが、すべてのモダリティを共通の例に含める必要がある。
我々は、アンカーシフトの観点から、この問題に関する理論的洞察を提供する。
モーダルの欠如に起因する不完全なアライメントを校正するために,マルチモーダル表現学習のためのCalMRLを提案する。
論文 参考訳(メタデータ) (2025-11-15T05:01:43Z) - Adaptive Redundancy Regulation for Balanced Multimodal Information Refinement [49.596978957463385]
支配的モダリティの長期支配は、表現と出力の結合を弱める。
従来の手法はしばしば、有利なモジュラリティの勾配を直接的に均一に調整する。
バランスの取れたマルチモーダル情報リファインメントに対する適応冗長性制御を提案する。
論文 参考訳(メタデータ) (2025-11-14T04:44:34Z) - Discrete Guidance Matching: Exact Guidance for Discrete Flow Matching [36.348940136801296]
この問題に対処するために、離散データのための新しいガイダンスフレームワークを提案する。
学習した離散フローマッチングモデルにより、所望の分布の正確な遷移率を導出する。
本稿では,エネルギー誘導型シミュレーションと嗜好アライメントによるテキスト・ツー・イメージ生成とマルチモーダル理解タスクの有効性を示す。
論文 参考訳(メタデータ) (2025-09-26T05:51:31Z) - Generative Assignment Flows for Representing and Learning Joint Distributions of Discrete Data [2.6499018693213316]
離散確率変数の結合確率分布の表現のための新しい生成モデルを提案する。
このアプローチでは、分解分布の統計部分多様体上のランダム化代入フローによる測度輸送を用いる。
論文 参考訳(メタデータ) (2024-06-06T21:58:33Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Augmented Bridge Matching [32.668433085737036]
フローとブリッジマッチングのプロセスは、任意のデータ分布の間を補間することができる。
マッチングプロセスの簡単な変更により,速度場を増大させることで,この結合が回復することを示す。
画像翻訳タスクの混合学習における拡張の効率について説明する。
論文 参考訳(メタデータ) (2023-11-12T22:42:34Z) - Cooperative Distribution Alignment via JSD Upper Bound [7.071749623370137]
教師なし分布アライメントは、2つ以上のソース分布を共有整列分布にマッピングする変換を推定する。
このタスクには、生成モデリング、教師なしドメイン適応、社会的に認識された学習など、多くの応用がある。
我々は,従来のフローベースアプローチを,単一の非逆数フレームワークで統一し,一般化することを提案する。
論文 参考訳(メタデータ) (2022-07-05T20:09:03Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Semi-Supervised Learning with Normalizing Flows [54.376602201489995]
FlowGMMは、フローの正規化を伴う生成半教師付き学習におけるエンドツーエンドのアプローチである。
我々は AG-News や Yahoo Answers のテキストデータなど,幅広いアプリケーションに対して有望な結果を示す。
論文 参考訳(メタデータ) (2019-12-30T17:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。