Fugu-MT 論文翻訳(概要): Meta Compositional Referring Expression Segmentation

論文の概要: Meta Compositional Referring Expression Segmentation

arxiv url: http://arxiv.org/abs/2304.04415v2
Date: Tue, 11 Apr 2023 04:01:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-12 11:11:05.372723
Title: Meta Compositional Referring Expression Segmentation
Title（参考訳）: メタコンフィグレーション参照表現のセグメンテーション
Authors: Li Xu, Mark He Huang, Xindi Shang, Zehuan Yuan, Ying Sun, Jun Liu
Abstract要約: 表現のセグメンテーションの参照は、画像から言語表現によって記述されたオブジェクトをセグメンテーションすることを目的としている。モデル合成一般化性能を向上させるためのメタ合成参照式(MCRES)フレームワークを提案する。
参考スコア（独自算出の注目度）: 23.464462223918996
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Referring expression segmentation aims to segment an object described by a language expression from an image. Despite the recent progress on this task, existing models tackling this task may not be able to fully capture semantics and visual representations of individual concepts, which limits their generalization capability, especially when handling novel compositions of learned concepts. In this work, through the lens of meta learning, we propose a Meta Compositional Referring Expression Segmentation (MCRES) framework to enhance model compositional generalization performance. Specifically, to handle various levels of novel compositions, our framework first uses training data to construct a virtual training set and multiple virtual testing sets, where data samples in each virtual testing set contain a level of novel compositions w.r.t. the virtual training set. Then, following a novel meta optimization scheme to optimize the model to obtain good testing performance on the virtual testing sets after training on the virtual training set, our framework can effectively drive the model to better capture semantics and visual representations of individual concepts, and thus obtain robust generalization performance even when handling novel compositions. Extensive experiments on three benchmark datasets demonstrate the effectiveness of our framework.
Abstract（参考訳）: 表現セグメンテーションの参照は、画像から言語表現によって記述されたオブジェクトをセグメントすることを目的としている。このタスクの最近の進歩にもかかわらず、このタスクに取り組む既存のモデルは、個々の概念の意味論と視覚的表現を完全に捉えることができないかもしれない。本稿ではメタ学習のレンズを通して,モデル合成一般化性能を向上させるメタ合成参照表現セグメンテーション(MCRES)フレームワークを提案する。具体的には、まずトレーニングデータを用いて、仮想トレーニングセットと複数の仮想テストセットを構築し、それぞれの仮想テストセット内のデータサンプルは、仮想トレーニングセットに対して、新しいコンポジションのレベルを含む。そして,仮想トレーニングセット上でのトレーニング後の仮想テストセット上での優れたテスト性能を得るために,モデルを最適化する新しいメタ最適化スキームに従えば,本フレームワークは,個々の概念のセマンティクスや視覚的表現をより効果的に把握し,新しい構成を扱う場合でも堅牢な一般化性能を得ることができる。 3つのベンチマークデータセットに対する大規模な実験は、我々のフレームワークの有効性を示す。

関連論文リスト

CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文参考訳（メタデータ） (2025-10-03T08:50:21Z)
SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction [65.15449703659772]
ビデオオブジェクト(VOS)はコンピュータビジョンにおける中核的なタスクであり、ターゲットオブジェクトの追跡とセグメント化をモデルに要求する。本稿では,従来の特徴マッチングから,高レベルなオブジェクト中心表現のプログレッシブな構築と利用へ移行する概念駆動セグメンテーションフレームワークであるセグメンテーション概念(SeC)を提案する。 SeCはSAM SeCVOSよりも11.8ポイント改善され、最先端のコンセプトを意識したビデオオブジェクトセグメンテーションが新たに確立された。
論文参考訳（メタデータ） (2025-07-21T17:59:02Z)
Deformable Attentive Visual Enhancement for Referring Segmentation Using Vision-Language Model [0.8747606955991707]
本稿では,セグメンテーションの精度とモーダル間のアライメントを向上させるために,アーキテクチャの改善を取り入れた視覚言語モデルを提案する。 SegVLMは多様なデータセットをまたいだ強力な一般化と表現シナリオの参照を示す。
論文参考訳（メタデータ） (2025-05-25T17:42:53Z)
VP Lab: a PEFT-Enabled Visual Prompting Laboratory for Semantic Segmentation [18.680875997611025]
VP Labは、堅牢なセグメンテーションモデル開発のための視覚的プロンプトを強化する包括的な反復フレームワークである。 E-PEFTは、視覚的なプロンプトパイプラインを特定の領域に適応させるために設計されたパラメータ効率の良い微調整技法の新たなアンサンブルである。 E-PEFTと視覚的プロンプトを組み合わせることで、様々な技術データセット間でセマンティックセグメンテーションmIoUの性能が50%向上することを示す。
論文参考訳（メタデータ） (2025-05-21T14:46:57Z)
SCOT: Self-Supervised Contrastive Pretraining For Zero-Shot Compositional Retrieval [7.248145893361865]
合成画像検索(CIR)は、クエリ画像をユーザが提供するテキスト修正と組み合わせてターゲット画像を取得するマルチモーダル学習タスクである。既存の方法は、FashionIQやCIRRといったラベル付き三重項のデータセットに基づいてモデルをトレーニングする、完全に教師付き学習に重点を置いている。本研究では,既存の大規模画像・テキスト・ペア・データセットと大規模言語モデルの生成機能を組み合わせて,組込み合成ネットワークを対照的に訓練するゼロショット合成事前学習戦略であるSCOTを提案する。
論文参考訳（メタデータ） (2025-01-12T07:23:49Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文参考訳（メタデータ） (2024-08-22T15:10:20Z)
FILM: How can Few-Shot Image Classification Benefit from Pre-Trained Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-09T08:07:43Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)
Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文参考訳（メタデータ） (2022-04-29T03:53:54Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文参考訳（メタデータ） (2021-05-10T06:55:39Z)
Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文参考訳（メタデータ） (2020-07-13T11:03:09Z)
Dynamic Feature Integration for Simultaneous Detection of Salient Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文参考訳（メタデータ） (2020-04-18T11:10:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。