Fugu-MT 論文翻訳(概要): Interfacing Foundation Models' Embeddings

論文の概要: Interfacing Foundation Models' Embeddings

arxiv url: http://arxiv.org/abs/2312.07532v2
Date: Mon, 15 Jul 2024 04:18:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 02:34:28.702329
Title: Interfacing Foundation Models' Embeddings
Title（参考訳）: ファウンデーションモデルの埋め込み
Authors: Xueyan Zou, Linjie Li, Jianfeng Wang, Jianwei Yang, Mingyu Ding, Junyi Wei, Zhengyuan Yang, Feng Li, Hao Zhang, Shilong Liu, Arul Aravinthan, Yong Jae Lee, Lijuan Wang,
Abstract要約: ファウンデーションモデルの埋め込みと、モダリティと粒度にまたがる統合イメージとデータセットレベルの理解を整合させる汎用インターフェースであるFINDを提案する。インターリーブド埋め込み空間を考慮したFIND-Benchでは,インターリーブドセグメンテーションと検索のためのCOCOデータセットに新たなトレーニングと評価アノテーションを導入している。
参考スコア（独自算出の注目度）: 131.0352288172788
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foundation models possess strong capabilities in reasoning and memorizing across modalities. To further unleash the power of foundation models, we present FIND, a generalized interface for aligning foundation models' embeddings with unified image and dataset-level understanding spanning modality and granularity. As shown in the teaser figure, a lightweight transformer interface without tuning any foundation model weights is enough for segmentation, grounding, and retrieval in an interleaved manner. The proposed interface has the following favorable attributes: (1) Generalizable. It applies to various tasks spanning retrieval, segmentation, etc., under the same architecture and weights. (2) Interleavable. With the benefit of multi-task multi-modal training, the proposed interface creates an interleaved shared embedding space. (3) Extendable. The proposed interface is adaptive to new tasks, and new models. In light of the interleaved embedding space, we introduce FIND-Bench, which introduces new training and evaluation annotations to the COCO dataset for interleaved segmentation and retrieval. We are the first work aligning foundations models' embeddings for interleave understanding. Meanwhile, our approach achieves state-of-the-art performance on FIND-Bench and competitive performance on standard retrieval and segmentation settings.
Abstract（参考訳）: 基礎モデルは、モダリティをまたいだ推論と記憶において強力な能力を持っている。基礎モデルの力をさらに解き放つために,ファウンデーションモデルの埋め込みと,モダリティと粒度にまたがるデータセットレベルの理解とを整合させる汎用インターフェースであるFINDを提案する。ティーザー図に示すように、基礎モデルの重みを調整せずに軽量なトランスフォーマーインタフェースは、インターリーブ方式でセグメンテーション、接地、検索に十分である。提案するインタフェースは,(1) 一般化可能な属性を持つ。同じアーキテクチャと重みの下で、検索、セグメンテーション等にまたがる様々なタスクに適用される。 (2)インターリーブ可能。マルチタスクマルチモーダルトレーニングの利点により、提案したインタフェースは、インターリーブされた共有埋め込み空間を生成する。 (3)拡張可能。提案したインタフェースは、新しいタスクと新しいモデルに適応する。インターリーブド埋め込み空間を考慮したFIND-Benchでは,インターリーブドセグメンテーションと検索のためのCOCOデータセットに新たなトレーニングと評価アノテーションを導入している。私たちは、ファンデーションモデルの埋め込みを相互に理解するための最初の作業です。一方,本手法はFIND-Bench上での最先端性能と,標準検索およびセグメンテーション設定における競合性能を実現する。

関連論文リスト

SAMPO: Visual Preference Optimization for Intent-Aware Segmentation with Vision Foundation Models [5.3279948735247284]
SAMPOは、視覚的基礎モデルに、疎視的相互作用から高レベルのカテゴリー的意図を推論する新しいフレームワークである。我々の研究は、視覚基盤モデルにおける意図認識のアライメントのための新しいパラダイムを確立し、補助的なプロンプトジェネレータや言語モデル支援の嗜好学習への依存を取り除く。
論文参考訳（メタデータ） (2025-08-04T14:31:11Z)
Segment Any Architectural Facades (SAAF):An automatic segmentation model for building facades, walls and windows based on multimodal semantics guidance [17.461797749810327]
本研究では,マルチモーダルな意味指導に基づくファサードの壁や窓の自動セグメンテーションモデルを提案する。本研究では,テキスト記述から画像分割へのマッピング関係を自律的に学習するためのエンドツーエンドトレーニングフレームワークを開発した。本モデルでは,壁面分割作業と窓分割作業の精度向上と一般化能力の向上を図っている。
論文参考訳（メタデータ） (2025-06-09T13:16:46Z)
RemoteSAM: Towards Segment Anything for Earth Observation [29.707796048411705]
我々は、地球観測のための頑健でフレキシブルな視覚基盤モデルを開発することを目指している。多様な視覚的目標を認識し、位置を特定する能力を持つべきである。いくつかの地球観測知覚ベンチマークで新しいSoTAを確立する基盤モデルであるRemoteSAMを提案する。
論文参考訳（メタデータ） (2025-05-23T15:27:57Z)
DINOv2-powered Few-Shot Semantic Segmentation: A Unified Framework via Cross-Model Distillation and 4D Correlation Mining [30.564216896513596]
セマンティックセグメンテーションは、その一般化能力によって関心が高まっている。近年,表現の伝達性向上のための基礎モデルが提案されている。 DINOv2エンコーダと軽量セグメンタのみを備えたFS-DINOを提案する。
論文参考訳（メタデータ） (2025-04-22T07:47:06Z)
UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文参考訳（メタデータ） (2025-03-26T17:33:23Z)
Dual Consolidation for Pre-Trained Model-Based Domain-Incremental Learning [64.1745161657794]
ドメイン・インクリメンタル・ラーニング(ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、Domain-Incremental Learning、DIL)は、異なるドメインにまたがる新しい概念へのモデルの漸進的な適応を含む。プレトレーニングモデルの最近の進歩は、DILの確かな基盤を提供する。しかし、新しい概念を学ぶことは、しばしば、事前訓練された知識を破滅的に忘れてしまう。本稿では,歴史的知識の統一と統合を図るために,デュアルコンソリデータティオン(ドゥクト)を提案する。
論文参考訳（メタデータ） (2024-10-01T17:58:06Z)
Dual-Personalizing Adapter for Federated Foundation Models [35.863585349109385]
そこで我々は,テストタイムのパーソナライゼーション(test-time personalization)という新たな設定を提案し,対象とするローカルタスクに集中し,テストタイムの分散シフトを示すタスクに拡張する。具体的には、グローバルアダプタとテスト時間分散シフトとパーソナライズに対処するローカルアダプタからなる、二重対人アダプタアーキテクチャ(FedDPA)を提案する。提案手法の有効性を,異なるNLPタスクのベンチマークデータセットを用いて評価した。
論文参考訳（メタデータ） (2024-03-28T08:19:33Z)
Task-Specific Adaptation of Segmentation Foundation Model via Prompt Learning [7.6136466242670435]
本稿では,Segment Anything Model(SAM)に適合した即時学習によるセグメンテーション基礎モデルのタスク固有適応を提案する。本手法は,入力プロンプトを組込み空間に調整し,目的タスクの特異性に適合させるプロンプト学習モジュールを含む。様々なセグメンテーションシナリオに対する実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-03-14T09:13:51Z)
Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文参考訳（メタデータ） (2023-07-10T17:59:40Z)
End-to-End Hierarchical Relation Extraction for Generic Form Understanding [0.6299766708197884]
本稿では,エンティティ検出とリンク予測を併用する新しいディープニューラルネットワークを提案する。本モデルでは,複数段階の意図的U-Netアーキテクチャを拡張し,リンク予測のための部分強度場と部分連想場を拡張した。本稿では,ノイズの多い文書データセットの形式理解におけるモデルの有効性を示す。
論文参考訳（メタデータ） (2021-06-02T06:51:35Z)
Reviving Iterative Training with Mask Guidance for Interactive Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。 COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文参考訳（メタデータ） (2021-02-12T15:44:31Z)
Auto-Panoptic: Cooperative Multi-Component Architecture Search for Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文参考訳（メタデータ） (2020-10-30T08:34:35Z)
BriNet: Towards Bridging the Intra-class and Inter-class Gaps in One-Shot Segmentation [84.2925550033094]
ほとんどショットのセグメンテーションは、限られたトレーニングサンプルで見えないオブジェクトインスタンスをセグメンテーションするためのモデルの一般化に焦点を当てている。本稿では,クエリの抽出した特徴とサポートイメージのギャップを埋めるフレームワーク BriNet を提案する。本フレームワークの有効性は,他の競合手法よりも優れる実験結果によって実証された。
論文参考訳（メタデータ） (2020-08-14T07:45:50Z)
Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文参考訳（メタデータ） (2020-03-09T17:05:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。