論文の概要: Bridging the Semantic Chasm: Synergistic Conceptual Anchoring for Generalized Few-Shot and Zero-Shot OOD Perception
- arxiv url: http://arxiv.org/abs/2602.00340v1
- Date: Fri, 30 Jan 2026 21:44:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.125288
- Title: Bridging the Semantic Chasm: Synergistic Conceptual Anchoring for Generalized Few-Shot and Zero-Shot OOD Perception
- Title(参考訳): セマンティック・カオスをブリッジする: 一般化Few-ShotとZero-Shot OOD知覚のための相乗的概念アンコリング
- Authors: Alexandros Christoforos, Sarah Jenkins, Michael Brown, Tuan Pham, David Chen,
- Abstract要約: この原稿は、クロスモーダルアライメント・デジェネレーションの現象を軽減するために設計されたSynerNet(SynerNet)フレームワークのパイオニアである。
視覚知覚、言語コンテキスト、名目埋め込み、グローバルコーディネーションの4つの特殊な計算ユニットは、モダリティの格差を協調的に修正する。
VISTA-Beyondベンチマークで実施された実証的な評価によると、SynerNetは、少数ショットとゼロショットの両方のシナリオにおいて、大幅なパフォーマンス向上をもたらす。
- 参考スコア(独自算出の注目度): 39.37877716254272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This manuscript presents a pioneering Synergistic Neural Agents Network (SynerNet) framework designed to mitigate the phenomenon of cross-modal alignment degeneration in Vision-Language Models (VLMs) when encountering Out-of-Distribution (OOD) concepts. Specifically, four specialized computational units - visual perception, linguistic context, nominal embedding, and global coordination - collaboratively rectify modality disparities via a structured message-propagation protocol. The principal contributions encompass a multi-agent latent space nomenclature acquisition framework, a semantic context-interchange algorithm for enhanced few-shot adaptation, and an adaptive dynamic equilibrium mechanism. Empirical evaluations conducted on the VISTA-Beyond benchmark demonstrate that SynerNet yields substantial performance augmentations in both few-shot and zero-shot scenarios, exhibiting precision improvements ranging from 1.2% to 5.4% across a diverse array of domains.
- Abstract(参考訳): 本論文は,視覚言語モデル(VLM)における相互アライメント劣化現象を緩和するために設計されたSynerNet(SynerNet)フレームワークを先駆的に提案する。
具体的には、視覚知覚、言語コンテキスト、名目埋め込み、グローバルコーディネーションの4つの特殊な計算ユニットが、構造化メッセージプロパゲーションプロトコルを介して、モダリティの格差を協調的に修正する。
主なコントリビューションは、マルチエージェントラテント空間命名法獲得フレームワーク、強化された少数ショット適応のための意味的文脈交換アルゴリズム、適応的動的平衡機構を含む。
VISTA-Beyondベンチマークで実施された実証的な評価では、SynerNetは、少数ショットとゼロショットの両方のシナリオにおいて、大幅なパフォーマンス向上をもたらし、様々な領域で1.2%から5.4%の精度向上を示している。
関連論文リスト
- SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Multi-Agent Cooperative Learning for Robust Vision-Language Alignment under OOD Concepts [0.0]
本稿では,視覚言語モデルにおけるクロスモーダルアライメントの崩壊に対処する,新しいマルチエージェント協調学習フレームワークを提案する。
VISTA-Beyondデータセットの実験では、MACLは、少数ショット設定とゼロショット設定の両方で、パフォーマンスを著しく改善している。
論文 参考訳(メタデータ) (2026-01-11T20:36:47Z) - GTMA: Dynamic Representation Optimization for OOD Vision-Language Models [10.940718051047023]
VLM(Vision-Matching Model)は、アウト・オブ・ディストリビューション(OOD)の概念がクロスモーダルアライメントの崩壊を引き起こすような、オープンワールドなアプリケーションに苦しむ。
本稿では,GTMA(Guid Target-Language Adaptation)フレームワークを通じて実現された動的表現最適化を提案する。
ImageNet-RとVISTA-Beyondベンチマークの実験では、GTMAはゼロショットと少数ショットのOOD精度を、ベースVLMよりも最大15~20%向上している。
論文 参考訳(メタデータ) (2025-12-20T20:44:07Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Federated Contrastive Learning for Personalized Semantic Communication [55.46383524190467]
我々は,パーソナライズされたセマンティックコミュニケーションを支援することを目的とした,協調型コントラスト学習フレームワークを設計する。
FedCLは、複数のクライアントにわたるローカルセマンティックエンコーダと、基地局が所有するグローバルセマンティックデコーダの協調トレーニングを可能にする。
分散クライアント間の異種データセットから生じるセマンティック不均衡問題に対処するために,コントラスト学習を用いてセマンティックセントロイドジェネレータを訓練する。
論文 参考訳(メタデータ) (2024-06-13T14:45:35Z) - Reasoning with the Theory of Mind for Pragmatic Semantic Communication [62.87895431431273]
本稿では,実用的な意味コミュニケーションフレームワークを提案する。
2つの知性エージェント間の効果的な目標指向情報共有を可能にする。
数値的な評価は、少ないビット量で効率的な通信を実現するためのフレームワークの能力を示している。
論文 参考訳(メタデータ) (2023-11-30T03:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。