論文の概要: Interfacing Foundation Models' Embeddings
- arxiv url: http://arxiv.org/abs/2312.07532v1
- Date: Tue, 12 Dec 2023 18:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 14:38:24.955091
- Title: Interfacing Foundation Models' Embeddings
- Title(参考訳): ファウンデーションモデルの埋め込み
- Authors: Xueyan Zou, Linjie Li, Jianfeng Wang, Jianwei Yang, Mingyu Ding,
Zhengyuan Yang, Feng Li, Hao Zhang, Shilong Liu, Arul Aravinthan, Yong Jae
Lee, Lijuan Wang
- Abstract要約: FINDはファウンデーションモデルの埋め込みを調整するための汎用インターフェースである。
これは、同じアーキテクチャと重みの下で、検索、セグメンテーション、textitetc.にまたがる様々なタスクに適用される。
インターリーブされた埋め込み空間を考慮して,COCOデータセットに新たなトレーニングと評価アノテーションを導入したFIND-Benchを導入する。
- 参考スコア(独自算出の注目度): 136.93591492633607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FIND, a generalized interface for aligning foundation models'
embeddings. As shown in teaser figure, a lightweight transformer interface
without tuning any foundation model weights is enough for a unified image
(segmentation) and dataset-level (retrieval) understanding. The proposed
interface has the following favorable attributes: (1) Generalizable. It applies
to various tasks spanning retrieval, segmentation, \textit{etc.}, under the
same architecture and weights. (2) Prototypable. Different tasks are able to be
implemented through prototyping attention masks and embedding types. (3)
Extendable. The proposed interface is adaptive to new tasks, and new models.
(4) Interleavable. With the benefit of multi-task multi-modal training, the
proposed interface creates an interleaved shared embedding space. In light of
the interleaved embedding space, we introduce the FIND-Bench, which introduces
new training and evaluation annotations to the COCO dataset for interleave
segmentation and retrieval. Our approach achieves state-of-the-art performance
on FIND-Bench and competitive performance on standard retrieval and
segmentation settings. The training, evaluation, and demo code as well as the
dataset have been released at https://github.com/UX-Decoder/FIND.
- Abstract(参考訳): 基礎モデルの埋め込みを整合させる汎用インターフェースであるFINDを提案する。
ティーザー図に示すように、基礎モデルの重みをチューニングしない軽量トランスフォーマーインターフェースは、統一されたイメージ(セグメンテーション)とデータセットレベルの理解に十分である。
提案するインタフェースは,(1) 一般化可能な属性を持つ。
これは、検索、セグメンテーション、 \textit{etc} にまたがる様々なタスクに適用できる。
アーキテクチャと重みは同じです。
2)プロトタイパブル。
異なるタスクは、注意マスクと埋め込みタイプをプロトタイピングすることで実装できる。
(3)拡張可能。
提案したインタフェースは、新しいタスクと新しいモデルに適応する。
(4) インターリーブ可能。
マルチタスクマルチモーダルトレーニングの利点により、提案したインタフェースはインターリーブされた共有埋め込み空間を生成する。
インターリーブ埋め込み空間を考慮したFIND-Benchを導入し,COCOデータセットに新たなトレーニングと評価アノテーションを導入し,セグメンテーションと検索を行う。
提案手法は、FIND-Benchにおける最先端性能と、標準検索およびセグメンテーション設定における競合性能を実現する。
トレーニング、評価、およびデモコードとデータセットはhttps://github.com/UX-Decoder/FINDでリリースされた。
関連論文リスト
- Dual Consolidation for Pre-Trained Model-Based Domain-Incremental Learning [64.1745161657794]
ドメイン・インクリメンタル・ラーニング(ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、Domain-Incremental Learning、DIL)は、異なるドメインにまたがる新しい概念へのモデルの漸進的な適応を含む。
プレトレーニングモデルの最近の進歩は、DILの確かな基盤を提供する。
しかし、新しい概念を学ぶことは、しばしば、事前訓練された知識を破滅的に忘れてしまう。
本稿では,歴史的知識の統一と統合を図るために,デュアルコンソリデータティオン(ドゥクト)を提案する。
論文 参考訳(メタデータ) (2024-10-01T17:58:06Z) - Dual-Personalizing Adapter for Federated Foundation Models [35.863585349109385]
そこで我々は,テストタイムのパーソナライゼーション(test-time personalization)という新たな設定を提案し,対象とするローカルタスクに集中し,テストタイムの分散シフトを示すタスクに拡張する。
具体的には、グローバルアダプタとテスト時間分散シフトとパーソナライズに対処するローカルアダプタからなる、二重対人アダプタアーキテクチャ(FedDPA)を提案する。
提案手法の有効性を,異なるNLPタスクのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2024-03-28T08:19:33Z) - Task-Specific Adaptation of Segmentation Foundation Model via Prompt Learning [7.6136466242670435]
本稿では,Segment Anything Model(SAM)に適合した即時学習によるセグメンテーション基礎モデルのタスク固有適応を提案する。
本手法は,入力プロンプトを組込み空間に調整し,目的タスクの特異性に適合させるプロンプト学習モジュールを含む。
様々なセグメンテーションシナリオに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-03-14T09:13:51Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - End-to-End Hierarchical Relation Extraction for Generic Form
Understanding [0.6299766708197884]
本稿では,エンティティ検出とリンク予測を併用する新しいディープニューラルネットワークを提案する。
本モデルでは,複数段階の意図的U-Netアーキテクチャを拡張し,リンク予測のための部分強度場と部分連想場を拡張した。
本稿では,ノイズの多い文書データセットの形式理解におけるモデルの有効性を示す。
論文 参考訳(メタデータ) (2021-06-02T06:51:35Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - Auto-Panoptic: Cooperative Multi-Component Architecture Search for
Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。
検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文 参考訳(メタデータ) (2020-10-30T08:34:35Z) - BriNet: Towards Bridging the Intra-class and Inter-class Gaps in
One-Shot Segmentation [84.2925550033094]
ほとんどショットのセグメンテーションは、限られたトレーニングサンプルで見えないオブジェクトインスタンスをセグメンテーションするためのモデルの一般化に焦点を当てている。
本稿では,クエリの抽出した特徴とサポートイメージのギャップを埋めるフレームワーク BriNet を提案する。
本フレームワークの有効性は,他の競合手法よりも優れる実験結果によって実証された。
論文 参考訳(メタデータ) (2020-08-14T07:45:50Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。