論文の概要: Knowledge Transfer from Interaction Learning
- arxiv url: http://arxiv.org/abs/2509.18733v1
- Date: Tue, 23 Sep 2025 07:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.745416
- Title: Knowledge Transfer from Interaction Learning
- Title(参考訳): インタラクション学習からの知識伝達
- Authors: Yilin Gao, Kangyi Chen, Zhongxing Peng, Hengjie Lu, Shugong Xu,
- Abstract要約: 現在の視覚基礎モデル(VFM)は、視覚言語モデル(VLM)から知識を伝達する際の基本的な制限に直面している。
視覚的理解をインタラクティブなプロセスとして明示的にモデル化する,認知に触発されたフレームワークであるLearning from Interactions (LFI)を提案する。
- 参考スコア(独自算出の注目度): 16.83991179271622
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current visual foundation models (VFMs) face a fundamental limitation in transferring knowledge from vision language models (VLMs), while VLMs excel at modeling cross-modal interactions through unified representation spaces, existing VFMs predominantly adopt result-oriented paradigms that neglect the underlying interaction processes. This representational discrepancy hinders effective knowledge transfer and limits generalization across diverse vision tasks. We propose Learning from Interactions (LFI), a cognitive-inspired framework that addresses this gap by explicitly modeling visual understanding as an interactive process. Our key insight is that capturing the dynamic interaction patterns encoded in pre-trained VLMs enables more faithful and efficient knowledge transfer to VFMs. The approach centers on two technical innovations, Interaction Queries, which maintain persistent relational structures across network layers, and interaction-based supervision, derived from the cross-modal attention mechanisms of VLMs. Comprehensive experiments demonstrate consistent improvements across multiple benchmarks, achieving 3.3 and 1.6mAP/2.4AP absolute gains on TinyImageNet classification and COCO detection/segmentation respectively, with minimal parameter overhead and faster convergence. The framework particularly excels in cross-domain settings, delivering 2.4 and 9.3 zero-shot improvements on PACS and VLCS. Human evaluations further confirm its cognitive alignment, outperforming result-oriented methods by 2.7 times in semantic consistency metrics.
- Abstract(参考訳): 現在の視覚基盤モデル(VFM)は、視覚言語モデル(VLM)から知識を伝達する際の基本的な制限に直面し、VLMは統一表現空間を通じて相互の相互作用をモデル化するのに優れ、既存のVFMは、基礎となる相互作用プロセスを無視した結果指向のパラダイムを主に採用している。
この表現の不一致は、効果的な知識伝達を妨げ、様々な視覚タスクの一般化を制限する。
本稿では,視覚的理解を対話的プロセスとして明示的にモデル化することで,このギャップに対処する認知に着想を得たフレームワークであるLearning from Interactions (LFI)を提案する。
我々の重要な洞察は、事前訓練されたVLMで符号化された動的相互作用パターンをキャプチャすることで、より忠実で効率的なVFMへの知識伝達が可能になるということである。
このアプローチは、ネットワーク層間の永続的なリレーショナル構造を維持するInteraction Queriesと、VLMのクロスモーダルなアテンションメカニズムから派生したインタラクションベースの監視という、2つの技術革新に重点を置いている。
総合的な実験では、TinyImageNet分類とCOCO検出/分離で3.3と1.6mAP/2.4APの絶対ゲインを達成し、パラメータのオーバーヘッドを最小化し、より高速な収束を実現している。
このフレームワークは特にクロスドメイン設定に優れており、PACSとVLCSで2.4と9.3のゼロショットの改善を提供している。
人間の評価は、その認知的アライメントをさらに確認し、セマンティックな一貫性の指標において2.7倍の結果指向の手法を上回ります。
関連論文リスト
- V-SEAM: Visual Semantic Editing and Attention Modulating for Causal Interpretability of Vision-Language Models [10.052877942432783]
本稿では,視覚言語モデルの因果的解釈に視覚意味編集と注意調整を組み合わせた新しいフレームワークであるV-SEAMを紹介する。
V-SEAMは3つの意味レベルにわたる予測に肯定的あるいは否定的な貢献で注目の頭を認識する。
3種類のVQAベンチマークでLLaVAとInstructBLIPの性能向上を示した。
論文 参考訳(メタデータ) (2025-09-18T10:58:34Z) - DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。
ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。
本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T17:22:33Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning [27.511627003202538]
伝統的なシーングラフは主に空間的関係に焦点を当て、視覚シーンにおける複雑な相互作用を推論する視覚言語モデル(VLM)の能力を制限する。
本稿では,(1) 従来の検出・構築手法は,非集中的かつ文脈的に無関係な関係集合を生成し,(2) 既存の手法では,新しい場面に起因した相互作用を一般化するための永続記憶の形成に失敗する,という2つの課題に対処する。
本稿では,3つの相補的なコンポーネントを通してVLMの相互作用推論を強化するフレームワークであるISGRを提案する。
論文 参考訳(メタデータ) (2025-05-14T04:04:23Z) - Interactive Continual Learning: Fast and Slow Thinking [19.253164551254734]
本稿では,対話型連続学習フレームワークを提案する。
System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。
提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-05T03:37:28Z) - Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition [45.0131792009999]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、ほとんどの標準的な評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。