論文の概要: Meta Compositional Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2304.04415v3
- Date: Wed, 12 Apr 2023 07:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 11:03:58.309265
- Title: Meta Compositional Referring Expression Segmentation
- Title(参考訳): メタコンフィグレーション参照表現のセグメンテーション
- Authors: Li Xu, Mark He Huang, Xindi Shang, Zehuan Yuan, Ying Sun, Jun Liu
- Abstract要約: 表現のセグメンテーションの参照は、画像から言語表現によって記述されたオブジェクトをセグメンテーションすることを目的としている。
モデル合成一般化性能を向上させるためのメタ合成参照式(MCRES)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.464462223918996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring expression segmentation aims to segment an object described by a
language expression from an image. Despite the recent progress on this task,
existing models tackling this task may not be able to fully capture semantics
and visual representations of individual concepts, which limits their
generalization capability, especially when handling novel compositions of
learned concepts. In this work, through the lens of meta learning, we propose a
Meta Compositional Referring Expression Segmentation (MCRES) framework to
enhance model compositional generalization performance. Specifically, to handle
various levels of novel compositions, our framework first uses training data to
construct a virtual training set and multiple virtual testing sets, where data
samples in each virtual testing set contain a level of novel compositions
w.r.t. the virtual training set. Then, following a novel meta optimization
scheme to optimize the model to obtain good testing performance on the virtual
testing sets after training on the virtual training set, our framework can
effectively drive the model to better capture semantics and visual
representations of individual concepts, and thus obtain robust generalization
performance even when handling novel compositions. Extensive experiments on
three benchmark datasets demonstrate the effectiveness of our framework.
- Abstract(参考訳): 表現セグメンテーションの参照は、画像から言語表現によって記述されたオブジェクトをセグメントすることを目的としている。
このタスクの最近の進歩にもかかわらず、このタスクに取り組む既存のモデルは、個々の概念の意味論と視覚的表現を完全に捉えることができないかもしれない。
本稿ではメタ学習のレンズを通して,モデル合成一般化性能を向上させるメタ合成参照表現セグメンテーション(MCRES)フレームワークを提案する。
具体的には、まずトレーニングデータを用いて、仮想トレーニングセットと複数の仮想テストセットを構築し、それぞれの仮想テストセット内のデータサンプルは、仮想トレーニングセットに対して、新しいコンポジションのレベルを含む。
そして,仮想トレーニングセット上でのトレーニング後の仮想テストセット上での優れたテスト性能を得るために,モデルを最適化する新しいメタ最適化スキームに従えば,本フレームワークは,個々の概念のセマンティクスや視覚的表現をより効果的に把握し,新しい構成を扱う場合でも堅牢な一般化性能を得ることができる。
3つのベンチマークデータセットに対する大規模な実験は、我々のフレームワークの有効性を示す。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。