論文の概要: Interfacing Foundation Models' Embeddings
- arxiv url: http://arxiv.org/abs/2312.07532v2
- Date: Mon, 15 Jul 2024 04:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 02:34:28.702329
- Title: Interfacing Foundation Models' Embeddings
- Title(参考訳): ファウンデーションモデルの埋め込み
- Authors: Xueyan Zou, Linjie Li, Jianfeng Wang, Jianwei Yang, Mingyu Ding, Junyi Wei, Zhengyuan Yang, Feng Li, Hao Zhang, Shilong Liu, Arul Aravinthan, Yong Jae Lee, Lijuan Wang,
- Abstract要約: ファウンデーションモデルの埋め込みと、モダリティと粒度にまたがる統合イメージとデータセットレベルの理解を整合させる汎用インターフェースであるFINDを提案する。
インターリーブド埋め込み空間を考慮したFIND-Benchでは,インターリーブドセグメンテーションと検索のためのCOCOデータセットに新たなトレーニングと評価アノテーションを導入している。
- 参考スコア(独自算出の注目度): 131.0352288172788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models possess strong capabilities in reasoning and memorizing across modalities. To further unleash the power of foundation models, we present FIND, a generalized interface for aligning foundation models' embeddings with unified image and dataset-level understanding spanning modality and granularity. As shown in the teaser figure, a lightweight transformer interface without tuning any foundation model weights is enough for segmentation, grounding, and retrieval in an interleaved manner. The proposed interface has the following favorable attributes: (1) Generalizable. It applies to various tasks spanning retrieval, segmentation, etc., under the same architecture and weights. (2) Interleavable. With the benefit of multi-task multi-modal training, the proposed interface creates an interleaved shared embedding space. (3) Extendable. The proposed interface is adaptive to new tasks, and new models. In light of the interleaved embedding space, we introduce FIND-Bench, which introduces new training and evaluation annotations to the COCO dataset for interleaved segmentation and retrieval. We are the first work aligning foundations models' embeddings for interleave understanding. Meanwhile, our approach achieves state-of-the-art performance on FIND-Bench and competitive performance on standard retrieval and segmentation settings.
- Abstract(参考訳): 基礎モデルは、モダリティをまたいだ推論と記憶において強力な能力を持っている。
基礎モデルの力をさらに解き放つために,ファウンデーションモデルの埋め込みと,モダリティと粒度にまたがるデータセットレベルの理解とを整合させる汎用インターフェースであるFINDを提案する。
ティーザー図に示すように、基礎モデルの重みを調整せずに軽量なトランスフォーマーインタフェースは、インターリーブ方式でセグメンテーション、接地、検索に十分である。
提案するインタフェースは,(1) 一般化可能な属性を持つ。
同じアーキテクチャと重みの下で、検索、セグメンテーション等にまたがる様々なタスクに適用される。
(2)インターリーブ可能。
マルチタスクマルチモーダルトレーニングの利点により、提案したインタフェースは、インターリーブされた共有埋め込み空間を生成する。
(3)拡張可能。
提案したインタフェースは、新しいタスクと新しいモデルに適応する。
インターリーブド埋め込み空間を考慮したFIND-Benchでは,インターリーブドセグメンテーションと検索のためのCOCOデータセットに新たなトレーニングと評価アノテーションを導入している。
私たちは、ファンデーションモデルの埋め込みを相互に理解するための最初の作業です。
一方,本手法はFIND-Bench上での最先端性能と,標準検索およびセグメンテーション設定における競合性能を実現する。
関連論文リスト
- Dual Consolidation for Pre-Trained Model-Based Domain-Incremental Learning [64.1745161657794]
ドメイン・インクリメンタル・ラーニング(ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、Domain-Incremental Learning、DIL)は、異なるドメインにまたがる新しい概念へのモデルの漸進的な適応を含む。
プレトレーニングモデルの最近の進歩は、DILの確かな基盤を提供する。
しかし、新しい概念を学ぶことは、しばしば、事前訓練された知識を破滅的に忘れてしまう。
本稿では,歴史的知識の統一と統合を図るために,デュアルコンソリデータティオン(ドゥクト)を提案する。
論文 参考訳(メタデータ) (2024-10-01T17:58:06Z) - Dual-Personalizing Adapter for Federated Foundation Models [35.863585349109385]
そこで我々は,テストタイムのパーソナライゼーション(test-time personalization)という新たな設定を提案し,対象とするローカルタスクに集中し,テストタイムの分散シフトを示すタスクに拡張する。
具体的には、グローバルアダプタとテスト時間分散シフトとパーソナライズに対処するローカルアダプタからなる、二重対人アダプタアーキテクチャ(FedDPA)を提案する。
提案手法の有効性を,異なるNLPタスクのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2024-03-28T08:19:33Z) - Task-Specific Adaptation of Segmentation Foundation Model via Prompt Learning [7.6136466242670435]
本稿では,Segment Anything Model(SAM)に適合した即時学習によるセグメンテーション基礎モデルのタスク固有適応を提案する。
本手法は,入力プロンプトを組込み空間に調整し,目的タスクの特異性に適合させるプロンプト学習モジュールを含む。
様々なセグメンテーションシナリオに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-03-14T09:13:51Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - End-to-End Hierarchical Relation Extraction for Generic Form
Understanding [0.6299766708197884]
本稿では,エンティティ検出とリンク予測を併用する新しいディープニューラルネットワークを提案する。
本モデルでは,複数段階の意図的U-Netアーキテクチャを拡張し,リンク予測のための部分強度場と部分連想場を拡張した。
本稿では,ノイズの多い文書データセットの形式理解におけるモデルの有効性を示す。
論文 参考訳(メタデータ) (2021-06-02T06:51:35Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - Auto-Panoptic: Cooperative Multi-Component Architecture Search for
Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。
検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文 参考訳(メタデータ) (2020-10-30T08:34:35Z) - BriNet: Towards Bridging the Intra-class and Inter-class Gaps in
One-Shot Segmentation [84.2925550033094]
ほとんどショットのセグメンテーションは、限られたトレーニングサンプルで見えないオブジェクトインスタンスをセグメンテーションするためのモデルの一般化に焦点を当てている。
本稿では,クエリの抽出した特徴とサポートイメージのギャップを埋めるフレームワーク BriNet を提案する。
本フレームワークの有効性は,他の競合手法よりも優れる実験結果によって実証された。
論文 参考訳(メタデータ) (2020-08-14T07:45:50Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。