Fugu-MT 論文翻訳(概要): Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

論文の概要: Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

arxiv url: http://arxiv.org/abs/2410.05210v1
Date: Mon, 7 Oct 2024 17:16:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 23:39:03.191606
Title: Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality
Title（参考訳）: 視覚言語的構成性向上のための事前訓練VLMの多モード機能保存
Authors: Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim,
Abstract要約: きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
参考スコア（独自算出の注目度）: 69.76121008898677
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a new method to enhance compositional understanding in pre-trained vision and language models (VLMs) without sacrificing performance in zero-shot multi-modal tasks. Traditional fine-tuning approaches often improve compositional reasoning at the cost of degrading multi-modal capabilities, primarily due to the use of global hard negative (HN) loss, which contrasts global representations of images and texts. This global HN loss pushes HN texts that are highly similar to the original ones, damaging the model's multi-modal representations. To overcome this limitation, we propose Fine-grained Selective Calibrated CLIP (FSC-CLIP), which integrates local hard negative loss and selective calibrated regularization. These innovations provide fine-grained negative supervision while preserving the model's representational integrity. Our extensive evaluations across diverse benchmarks for both compositionality and multi-modal tasks show that FSC-CLIP not only achieves compositionality on par with state-of-the-art models but also retains strong multi-modal capabilities. Code is available at: https://github.com/ytaek-oh/fsc-clip.
Abstract（参考訳）: 本稿では,ゼロショットマルチモーダルタスクの性能を犠牲にすることなく,事前学習された視覚と言語モデル(VLM)の構成的理解を高める手法を提案する。従来の微調整アプローチは、画像やテキストのグローバル表現とは対照的なグローバルハードネガティブ(HN)損失を用いることによって、多モード能力を劣化させるコストで構成推論を改善することが多い。このグローバルなHN損失は、元のテキストと非常によく似たHNテキストをプッシュし、モデルのマルチモーダル表現を損なう。この制限を克服するために,局所的負の損失と選択的校正正規化を統合した細粒度選択校正CLIP(FSC-CLIP)を提案する。これらの革新は、モデルの表現整合性を維持しながら、きめ細かい否定的な監督を提供する。構成性およびマルチモーダルタスクの多種多様なベンチマークにおいて, FSC-CLIPは, 現状のモデルと同等に構成性を達成できるだけでなく, 強力なマルチモーダル能力も維持できることを示す。コードは、https://github.com/ytaek-oh/fsc-clip.comで入手できる。

関連論文リスト

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models [67.45032003041399]
本稿では,MLLMに対する敵例の転送可能性を高めるために,MPCAttack(Multi-Paradigm Collaborative Attack)フレームワークを提案する。 MPCOは異なるパラダイム表現の重要性を適応的にバランスさせ、グローバルな最適化を導く。我々のソリューションは、オープンソースおよびクローズドソースMLLMに対する標的および未ターゲットの攻撃において、常に最先端の手法よりも優れています。
論文参考訳（メタデータ） (2026-03-05T06:01:26Z)
Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality [59.651410243721045]
CoCoAは、マルチモーダル埋め込み最適化のための協調注意に基づくコンテンツ再構成事前学習パラダイムである。 EOSをベースとした再構築タスクを導入し、対応するEOS>埋め込みからの入力を再構成するようモデルに促す。 MMEB-V1の実験では、Qwen2-VLとQwen2.5-VLをベースにしたCoCoAが埋め込み品質を著しく向上することを示した。
論文参考訳（メタデータ） (2026-03-02T05:34:45Z)
Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models [41.79238283279954]
HRAは、サンプルレベルと最適化レベルの両方で普遍対向摂動(UAP)を洗練する。画像のモダリティについては、敵の例をクリーンな画像と摂動に切り離し、各コンポーネントを独立して扱うことができる。テキストのモダリティについて、HRAは文内重要度と文間重要度を組み合わせ、世界的影響力のある単語を識別する。
論文参考訳（メタデータ） (2026-01-15T11:45:56Z)
Activating Visual Context and Commonsense Reasoning through Masked Prediction in VLMs [9.953258838113]
本稿では,コンテキストとコモンセンスを用いた新しい微調整タスクであるMasked Predictionを導入する。このタスクは、隠蔽された画像から意味的に意味のあるコンテンツを再構成することで、視覚的コンテキストと常識的推論を統合するようモデルに強制する。また,先行サンプリングによる強化ファインチューニングというイノベーティブなトレーニング手法も導入する。
論文参考訳（メタデータ） (2025-10-21T08:50:11Z)
Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。 VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文参考訳（メタデータ） (2025-09-23T16:22:27Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Instruction Learning Paradigms: A Dual Perspective on White-box and Black-box LLMs [29.224895952158274]
両パラダイムの長所をシームレスにマージする新しいフレームワークを導入する。私たちのアプローチは、最先端のベースラインを一貫して上回ります。このブラックボックスの初期化と高度なセマンティックリファインメントの融合は、スケーラブルで効率的な解をもたらす。
論文参考訳（メタデータ） (2025-06-14T14:27:54Z)
Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文参考訳（メタデータ） (2025-06-05T06:39:43Z)
Beyond Degradation Redundancy: Contrastive Prompt Learning for All-in-One Image Restoration [109.38288333994407]
コントラスト・プロンプト・ラーニング(Contrastive Prompt Learning, CPL)は、プロンプト・タスクのアライメントを根本的に強化する新しいフレームワークである。本フレームワークは,パラメータ効率を保ちながら,新たな最先端性能を確立し,統一画像復元のための原理的ソリューションを提供する。
論文参考訳（メタデータ） (2025-04-14T08:24:57Z)
CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning [24.981279071712173]
本稿では,LVLMを表現タスクと生成タスクの両方に拡張する,対照的に自己回帰的な微調整フレームワークであるCAFeを紹介する。提案手法は,従来のタスクを統一し,マルチモーダル検索とマルチモーダル生成ベンチマークの両面で最先端の結果を得る。
論文参考訳（メタデータ） (2025-03-25T17:57:17Z)
Enhancing NLP Robustness and Generalization through LLM-Generated Contrast Sets: A Scalable Framework for Systematic Evaluation and Adversarial Training [0.0]
モデルロバスト性を評価し改善するために、3,000サンプルのコントラストセットを作成します。これらのコントラストの微調整は、体系的に摂動された例の性能を高め、標準テスト精度を維持し、新しい摂動の一般化を緩やかに改善した。
論文参考訳（メタデータ） (2025-03-09T14:52:53Z)
Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。 I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文参考訳（メタデータ） (2025-01-03T09:25:04Z)
Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文参考訳（メタデータ） (2024-12-05T17:54:27Z)
MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文参考訳（メタデータ） (2024-09-15T13:08:59Z)
Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。 CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:00:09Z)
LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文参考訳（メタデータ） (2024-05-29T00:36:56Z)
Enhancing Fine-Grained Image Classifications via Cascaded Vision Language Models [0.0]
本稿では,従来のCLIP手法の制約を克服する革新的なフレームワークであるCascadeVLMを紹介する。様々なきめ細かい画像データセットに対する実験により、CascadeVLMは既存のモデルよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2024-05-18T14:12:04Z)
Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。 CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文参考訳（メタデータ） (2024-03-15T17:33:49Z)
Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。 AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。 AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2024-03-12T11:48:49Z)
Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning [45.25602203155762]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-19T04:13:33Z)
Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文参考訳（メタデータ） (2023-12-10T22:07:42Z)
Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models [55.5610165938949]
ファインチューニング型視覚言語モデル (VLM) はその実用的価値から人気が高まっている。本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について検討する。それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。
論文参考訳（メタデータ） (2023-11-28T05:17:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。