論文の概要: Exploring Cross-Modal Flows for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2510.14543v1
- Date: Thu, 16 Oct 2025 10:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.820505
- Title: Exploring Cross-Modal Flows for Few-Shot Learning
- Title(参考訳): Few-Shot Learningのためのクロスモーダルフローの探索
- Authors: Ziqi Jiang, Yanghao Wang, Long Chen,
- Abstract要約: 本稿では,モーダル間速度場を学習し,モデルに依存しない多段階調整手法を提案する。
結果は、FMAが様々なベンチマークやバックボーンでパフォーマンスを継続的に向上できることを示した。
- 参考スコア(独自算出の注目度): 9.866094371902372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning features from different modalities, is one of the most fundamental challenges for cross-modal tasks. Although pre-trained vision-language models can achieve a general alignment between image and text, they often require parameter-efficient fine-tuning (PEFT) for further adjustment. Today's PEFT methods (e.g., prompt tuning, LoRA-based, or adapter-based) always selectively fine-tune a subset of parameters, which can slightly adjust either visual or textual features, and avoid overfitting. In this paper, we are the first to highlight that all existing PEFT methods perform one-step adjustment. It is insufficient for complex (or difficult) datasets, where features of different modalities are highly entangled. To this end, we propose the first model-agnostic multi-step adjustment approach by learning a cross-modal velocity field: Flow Matching Alignment (FMA). Specifically, to ensure the correspondence between categories during training, we first utilize a fixed coupling strategy. Then, we propose a noise augmentation strategy to alleviate the data scarcity issue. Finally, we design an early-stopping solver, which terminates the transformation process earlier, improving both efficiency and accuracy. Compared with one-step PEFT methods, FMA has the multi-step rectification ability to achieve more precise and robust alignment. Extensive results have demonstrated that FMA can consistently yield significant performance gains across various benchmarks and backbones, particularly on challenging datasets.
- Abstract(参考訳): 異なるモダリティの機能をアライメントすることは、クロスモーダルタスクにおける最も基本的な課題の1つである。
事前訓練された視覚言語モデルは画像とテキスト間の一般的なアライメントを実現することができるが、さらなる調整にはパラメータ効率の微調整(PEFT)が必要となることが多い。
今日のPEFTメソッド(例えば、プロンプトチューニング、LoRAベース、アダプタベース)は、常にパラメータのサブセットを選択的に微調整します。
本稿では,既存のPEFT手法が一段階調整を行うことを最初に強調する。
複雑な(あるいは難しい)データセットには不十分で、異なるモダリティの特徴が極めて絡み合っている。
そこで本研究では,FMA (Flow Matching Alignment) を用いたモデル非依存型多段階調整手法を提案する。
具体的には、トレーニング中のカテゴリ間の対応を確保するために、まず固定結合戦略を利用する。
そこで本稿では,データ不足問題を軽減するため,ノイズ増大戦略を提案する。
最後に, 早期解法を設計し, 変換プロセスの早期終了を図り, 効率と精度を両立させる。
一段階PEFT法と比較して、FMAはより正確でロバストなアライメントを実現するための多段階補正能力を有する。
大規模な結果から、FMAはさまざまなベンチマークやバックボーン、特に挑戦的なデータセットにおいて、一貫して大幅なパフォーマンス向上を達成可能であることが示されている。
関連論文リスト
- Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - AMSFL: Adaptive Multi-Step Federated Learning via Gradient Difference-Based Error Modeling [0.0]
フェデレーション学習は、コミュニケーション効率とモデルの精度のバランスをとる上で、重要な課題に直面します。
重要な問題は、高い計算コストを伴わずに更新エラーを近似することにある。
グラディエント差分近似(GDA)と呼ばれる軽量で効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-27T19:32:00Z) - Taming Flow Matching with Unbalanced Optimal Transport into Fast Pansharpening [10.23957420290553]
本稿では,一段階の高品位パンシャーピングを実現するための最適輸送フローマッチングフレームワークを提案する。
OTFMフレームワークは、パンシャーピング制約の厳格な遵守を維持しつつ、シミュレーション不要なトレーニングとシングルステップ推論を可能にする。
論文 参考訳(メタデータ) (2025-03-19T08:10:49Z) - Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training [44.48966200270378]
First-Order (FO)imats を用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、重要な計算課題を示す。
本稿では,ZO法をPEFTで補完し,ハードプロンプトに対する感度を緩和する二段階最適化フレームワークを提案する。
我々のBilevel ZOFO法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
論文 参考訳(メタデータ) (2025-02-05T20:47:44Z) - Over-the-Air Fair Federated Learning via Multi-Objective Optimization [52.295563400314094]
本稿では,公平なFLモデルを訓練するためのOTA-FFL(Over-the-air Fair Federated Learning Algorithm)を提案する。
OTA-FFLの公正性とロバストな性能に対する優位性を示す実験を行った。
論文 参考訳(メタデータ) (2025-01-06T21:16:51Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - A data-driven choice of misfit function for FWI using reinforcement
learning [0.0]
我々は、DQN(Deep-Q Network)を用いて最適なポリシーを学習し、異なる不適合関数を切り替える適切なタイミングを決定する。
具体的には、従来のL2-ノルムミスフィット関数やOTMF(Optimal-transport Match-filter)のミスフィットをいつ使うべきかを予測するために状態-アクション値関数(Q)を訓練する。
論文 参考訳(メタデータ) (2020-02-08T12:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。