論文の概要: MOCHA: Multi-modal Objects-aware Cross-arcHitecture Alignment
- arxiv url: http://arxiv.org/abs/2509.14001v1
- Date: Wed, 17 Sep 2025 14:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.862346
- Title: MOCHA: Multi-modal Objects-aware Cross-arcHitecture Alignment
- Title(参考訳): MOCHA:マルチモーダルオブジェクトを意識したクロスアークアライメント
- Authors: Elena Camuffo, Francesco Barbato, Mete Ozay, Simone Milani, Umberto Michieli,
- Abstract要約: MOCHAはオブジェクトレベルで動作し、教師の変更や推論時のテキスト入力を必要とせずに、セマンティクスの効率的な転送を可能にする。
コンパクトなアーキテクチャにもかかわらず、MOCHAはより大規模なマルチモーダルモデルと同等のパフォーマンスに達し、現実世界のデプロイメントに適していることを証明している。
- 参考スコア(独自算出の注目度): 38.04024413708523
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce MOCHA (Multi-modal Objects-aware Cross-arcHitecture Alignment), a knowledge distillation approach that transfers region-level multimodal semantics from a large vision-language teacher (e.g., LLaVa) into a lightweight vision-only object detector student (e.g., YOLO). A translation module maps student features into a joint space, where the training of the student and translator is guided by a dual-objective loss that enforces both local alignment and global relational consistency. Unlike prior approaches focused on dense or global alignment, MOCHA operates at the object level, enabling efficient transfer of semantics without modifying the teacher or requiring textual input at inference. We validate our method across four personalized detection benchmarks under few-shot regimes. Results show consistent gains over baselines, with a +10.1 average score improvement. Despite its compact architecture, MOCHA reaches performance on par with larger multimodal models, proving its suitability for real-world deployment.
- Abstract(参考訳): 我々は,MOCHA(Multi-modal Objects-aware Cross-arcHitecture Alignment)という知識蒸留手法を導入し,地域レベルのマルチモーダル・セマンティクスを大規模視覚言語教師(LLaVaなど)から軽量な視覚のみの物体検出学生(YOLOなど)に転送する。
翻訳モジュールは、生徒の特徴を共同空間にマッピングし、学生と翻訳者の訓練は、局所的なアライメントとグローバルな関係性の両方を強制する二重目的損失によって導かれる。
密集的あるいはグローバルなアライメントに焦点を当てた以前のアプローチとは異なり、MOCHAはオブジェクトレベルで動作し、教師を変更することなく、あるいは推論時にテキスト入力を必要とせずに、セマンティクスの効率的な転送を可能にする。
本手法は4つのパーソナライズされた検出ベンチマークに対して,数発の条件下で検証する。
結果はベースラインよりも一貫した利得を示し、平均スコアは+10.1である。
コンパクトなアーキテクチャにもかかわらず、MOCHAはより大規模なマルチモーダルモデルと同等のパフォーマンスに達し、現実世界のデプロイメントに適していることを証明している。
関連論文リスト
- Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation [11.23342183103283]
Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語の指示に従い、現実の環境でターゲットの場所に到達することを可能にすることを目的としている。
本稿では,視覚的観察,言語指導,ナビゲーション履歴の推論能力を高めるため,MFRA(Multi-level Fusion and Reasoning Architecture)を提案する。
論文 参考訳(メタデータ) (2025-04-23T08:41:27Z) - Cross-domain Few-shot Object Detection with Multi-modal Textual Enrichment [21.36633828492347]
クロスドメイン多モードFew-Shotオブジェクト検出(CDMM-FSOD)
メタラーニングベースのフレームワークを導入し、リッチテキストセマンティクスを補助モダリティとして活用し、効果的なドメイン適応を実現する。
提案手法を共通のクロスドメインオブジェクト検出ベンチマークで評価し,既存の複数ショットオブジェクト検出手法を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-23T06:59:22Z) - HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。
HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。