Fugu-MT 論文翻訳(概要): SynthRef: Generation of Synthetic Referring Expressions for Object Segmentation

論文の概要: SynthRef: Generation of Synthetic Referring Expressions for Object Segmentation

arxiv url: http://arxiv.org/abs/2106.04403v2
Date: Wed, 9 Jun 2021 05:39:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-10 10:50:21.863956
Title: SynthRef: Generation of Synthetic Referring Expressions for Object Segmentation
Title（参考訳）: SynthRef:オブジェクトセグメンテーションのための合成参照式の生成
Authors: Ioannis Kazakos, Carles Ventura, Miriam Bellver, Carina Silberer and Xavier Giro-i-Nieto
Abstract要約: ビデオオブジェクトセグメンテーションのための合成参照表現を用いた最初の大規模データセットを提示・配布する。実験により, 合成参照表現を用いて学習することにより, モデルが様々なデータセットにまたがって一般化する能力を向上できることが実証された。
参考スコア（独自算出の注目度）: 7.690965189591581
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advances in deep learning have brought significant progress in visual grounding tasks such as language-guided video object segmentation. However, collecting large datasets for these tasks is expensive in terms of annotation time, which represents a bottleneck. To this end, we propose a novel method, namely SynthRef, for generating synthetic referring expressions for target objects in an image (or video frame), and we also present and disseminate the first large-scale dataset with synthetic referring expressions for video object segmentation. Our experiments demonstrate that by training with our synthetic referring expressions one can improve the ability of a model to generalize across different datasets, without any additional annotation cost. Moreover, our formulation allows its application to any object detection or segmentation dataset.
Abstract（参考訳）: 近年のディープラーニングの進歩は、言語誘導ビデオオブジェクトセグメンテーションのような視覚的接地タスクに大きな進歩をもたらした。しかし、これらのタスクのための大規模なデータセットの収集は、アノテーション時間の観点からは高価であり、ボトルネックである。そこで本研究では,画像(あるいはビデオフレーム)における対象オブジェクトに対する合成参照表現を生成するSynthRefという新しい手法を提案し,ビデオオブジェクトセグメンテーションのための合成参照表現を用いて,最初の大規模データセットを提示・配布する。我々の実験は、合成参照表現を用いてトレーニングすることにより、追加のアノテーションコストを伴わずに、異なるデータセットをまたいでモデルを一般化する能力を向上させることができることを示した。さらに,任意のオブジェクト検出やセグメンテーションデータセットに適用可能とした。

関連論文リスト

ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。 3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文参考訳（メタデータ） (2025-02-26T10:25:32Z)
VideoOrion: Tokenizing Object Dynamics in Videos [33.26917406964148]
ビデオ内のキーセマンティック情報を明示的にキャプチャするビデオ大言語モデル(Video Large Language Model: Video-LLM)を提案する。 VideoOrionでは、専門的なビジョンモデルを使用して、検出-セグメンション-トラックパイプラインを通じてオブジェクトのダイナミクスを抽出する。本手法は,高次元映像データをセマンティックトークンに効率よく圧縮するビデオLLMにおける永続的課題に対処する。
論文参考訳（メタデータ） (2024-11-25T07:32:02Z)
Context Propagation from Proposals for Semantic Video Object Segmentation [1.223779595809275]
本稿では,意味オブジェクトセグメンテーションのためのビデオにおける意味的文脈関係を学習するための新しいアプローチを提案する。提案手法は,オブジェクトのキー進化と意味時間領域上のオブジェクト間の関係をエンコードするビデオオブジェクトから,セマンティックコンテキストを導出する。
論文参考訳（メタデータ） (2024-07-08T14:44:18Z)
Submodular video object proposal selection for semantic object segmentation [1.223779595809275]
連続的なフレームから複数のインスタンスのサブセットをキャプチャするデータ駆動表現を学習する。この選択過程は、部分モジュラ函数を最大化することによって解決される施設位置問題として定式化される。本手法は,ロバストなセマンティックなビデオオブジェクトセグメンテーションアルゴリズムの基盤となる,長期的コンテキスト依存を検索する。
論文参考訳（メタデータ） (2024-07-08T13:18:49Z)
1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文参考訳（メタデータ） (2024-06-07T03:13:46Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文参考訳（メタデータ） (2023-08-16T17:58:34Z)
Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文参考訳（メタデータ） (2022-07-05T17:59:43Z)
Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文参考訳（メタデータ） (2021-03-30T17:57:01Z)
Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。 Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文参考訳（メタデータ） (2020-09-18T14:12:50Z)
Instance Segmentation of Visible and Occluded Regions for Finding and Picking Target from a Pile of Objects [25.836334764387498]
本研究では,対象物体の発見・把握が可能な物体の山から対象物を選択するロボットシステムを提案する。既存のインスタンスセグメンテーションモデルを新しいリルックアーキテクチャで拡張し、モデルがインスタンス間の関係を明示的に学習する。また、画像合成により、人間のアノテーションを使わずに新しいオブジェクトを処理できるシステムを構築する。
論文参考訳（メタデータ） (2020-01-21T12:28:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。