論文の概要: Semantic-Preserving Cross-Style Visual Reasoning for Robust Multi-Modal Understanding in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.22838v1
- Date: Sun, 26 Oct 2025 21:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.3879
- Title: Semantic-Preserving Cross-Style Visual Reasoning for Robust Multi-Modal Understanding in Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルにおけるロバスト多モード理解のための意味保存型クロススタイルビジュアル推論
- Authors: Aya Nakayama, Brian Wong, Yuji Nishimura, Kaito Tanaka,
- Abstract要約: Semantic-Preserving Cross-Style Visual Reasoner (SP-CSVR)は、安定なセマンティック理解と適応的なクロススタイル視覚推論のための新しいフレームワークである。
SP-CSVRは、スタイル内容の不整合のためのCSFE(Cross-Style Feature)、効率的な小ショットスタイル適応のためのSAICD(Semantic-Aligned In-Context Decoder)、クロススタイルのセマンティック不変性を実装するための適応セマンティック一貫性モジュール(Adaptive Semantic Consistency Module)を統合する。
- 参考スコア(独自算出の注目度): 0.2833003196854753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The "style trap" poses a significant challenge for Large Vision-Language Models (LVLMs), hindering robust semantic understanding across diverse visual styles, especially in in-context learning (ICL). Existing methods often fail to effectively decouple style from content, hindering generalization. To address this, we propose the Semantic-Preserving Cross-Style Visual Reasoner (SP-CSVR), a novel framework for stable semantic understanding and adaptive cross-style visual reasoning. SP-CSVR integrates a Cross-Style Feature Encoder (CSFE) for style-content disentanglement, a Semantic-Aligned In-Context Decoder (SAICD) for efficient few-shot style adaptation, and an Adaptive Semantic Consistency Module (ASCM) employing multi-task contrastive learning to enforce cross-style semantic invariance. Extensive experiments on a challenging multi-style dataset demonstrate SP-CSVR's state-of-the-art performance across visual captioning, visual question answering, and in-context style adaptation. Comprehensive evaluations, including ablation studies and generalization analysis, confirm SP-CSVR's efficacy in enhancing robustness, generalization, and efficiency across diverse visual styles.
- Abstract(参考訳): この「スタイルトラップ」はLVLM(Large Vision-Language Models)にとって重要な課題であり、特に文脈内学習(ICL)において、様々な視覚スタイルにわたる堅牢な意味理解を妨げる。
既存の手法はしばしば、スタイルをコンテンツから効果的に切り離すことに失敗し、一般化を妨げる。
そこで本研究では,セマンティック・保存型クロススタイル・ビジュアル・リアソナー (SP-CSVR) を提案する。
SP-CSVRは、スタイル・コンテント・アンタングルメントのためのCSFE(Cross-Style Feature Encoder)、効率的な小ショットスタイル適応のためのSAICD(Semantic-Aligned In-Context Decoder)、マルチタスクコントラスト学習を用いた適応意味一貫性モジュール(ASCM)を統合する。
挑戦的なマルチスタイルデータセットに関する大規模な実験は、視覚的キャプション、視覚的質問応答、コンテキスト内スタイル適応におけるSP-CSVRの最先端のパフォーマンスを実証している。
アブレーション研究や一般化分析を含む総合的な評価は、様々な視覚スタイルにおける堅牢性、一般化、効率性の向上におけるSP-CSVRの有効性を確認している。
関連論文リスト
- Remote Sensing Large Vision-Language Model: Semantic-augmented Multi-level Alignment and Semantic-aware Expert Modeling [42.46176089721314]
LVLM(Large Vision and Language Models)は、自然画像領域における様々な視覚言語タスクに強いパフォーマンスを示す。
リモートセンシング(RS)への応用は、視覚的外観、オブジェクトスケール、セマンティクスに大きな領域差があるため、いまだ探索されていない。
本稿では,RS理解に適した新しいLVLMフレームワークを提案する。セマンティック拡張多レベルアライメントとセマンティック対応エキスパートモデリングである。
論文 参考訳(メタデータ) (2025-06-27T02:31:37Z) - Improving vision-language alignment with graph spiking hybrid Networks [10.88584928028832]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。
視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文 参考訳(メタデータ) (2025-01-31T11:55:17Z) - Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。