論文の概要: Non-parametric Contextual Relationship Learning for Semantic Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2407.05916v1
- Date: Mon, 8 Jul 2024 13:22:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:40:39.088577
- Title: Non-parametric Contextual Relationship Learning for Semantic Video Object Segmentation
- Title(参考訳): 意味的ビデオオブジェクトセグメンテーションのための非パラメトリック関係学習
- Authors: Tinghuai Wang, Huiling Wang,
- Abstract要約: そこでは,領域の類似性グラフ上に,オブジェクト仮説によって暗示される固有関係をエンコードする,文脈的手がかりの非パラメトリックな例を紹介した。
本アルゴリズムは,学習コンテキストを条件付きランダムフィールド(CRF)にペアポテンシャルの形で統合し,領域ごとのセマンティックラベルを推論する。
提案手法は,YouTube-Objectsデータセットの課題に対して評価を行い,提案手法が最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.4042211166197214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel approach for modeling semantic contextual relationships in videos. This graph-based model enables the learning and propagation of higher-level spatial-temporal contexts to facilitate the semantic labeling of local regions. We introduce an exemplar-based nonparametric view of contextual cues, where the inherent relationships implied by object hypotheses are encoded on a similarity graph of regions. Contextual relationships learning and propagation are performed to estimate the pairwise contexts between all pairs of unlabeled local regions. Our algorithm integrates the learned contexts into a Conditional Random Field (CRF) in the form of pairwise potentials and infers the per-region semantic labels. We evaluate our approach on the challenging YouTube-Objects dataset which shows that the proposed contextual relationship model outperforms the state-of-the-art methods.
- Abstract(参考訳): ビデオにおける意味的文脈関係をモデル化するための新しい手法を提案する。
このグラフベースのモデルにより、高レベルの時空間文脈の学習と伝播を可能にし、局所領域のセマンティックラベリングを容易にする。
そこでは, 対象仮説によって示唆される固有関係を, 領域の類似性グラフ上にエンコードする, 文脈的手がかりの非パラメトリックな例を紹介した。
文脈関係の学習と伝播は、ラベルなしの局所領域のすべてのペア間のペアワイズコンテキストを推定するために行われる。
本アルゴリズムは,学習コンテキストを条件付きランダムフィールド(CRF)にペアポテンシャルの形で統合し,領域ごとのセマンティックラベルを推論する。
提案手法は,YouTube-Objectsデータセットの課題に対して評価を行い,提案手法が最先端の手法よりも優れていることを示す。
関連論文リスト
- Context Propagation from Proposals for Semantic Video Object Segmentation [1.223779595809275]
本稿では,意味オブジェクトセグメンテーションのためのビデオにおける意味的文脈関係を学習するための新しいアプローチを提案する。
提案手法は,オブジェクトのキー進化と意味時間領域上のオブジェクト間の関係をエンコードするビデオオブジェクトから,セマンティックコンテキストを導出する。
論文 参考訳(メタデータ) (2024-07-08T14:44:18Z) - Hire: Hybrid-modal Interaction with Multiple Relational Enhancements for Image-Text Matching [7.7559623054251]
画像テキストマッチング(ITM)はコンピュータビジョンの基本的な問題である。
画像テキストマッチングのためのマルチエンハンスメント(termed textitHire)を用いたハイブリッドモーダル機能を提案する。
特に、明示的なモーダル空間意味グラフに基づく推論ネットワークは、視覚オブジェクトの文脈表現を改善するために設計されている。
論文 参考訳(メタデータ) (2024-06-05T13:10:55Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Image Synthesis via Semantic Composition [74.68191130898805]
本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。
類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。
本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
論文 参考訳(メタデータ) (2021-09-15T02:26:07Z) - Imposing Relation Structure in Language-Model Embeddings Using
Contrastive Learning [30.00047118880045]
グラフ構造における関係をエンコードするために文埋め込みを訓練する新しいコントラスト学習フレームワークを提案する。
結果として得られた関係認識文の埋め込みは、関係抽出タスクにおける最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-02T10:58:27Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Contextual Modulation for Relation-Level Metaphor Identification [3.2619536457181075]
本稿では,ある文法的関係の関連レベルの比喩表現を識別するための新しいアーキテクチャを提案する。
視覚的推論の研究にインスパイアされた方法論では、我々のアプローチは、深い文脈化された特徴にニューラルネットワークの計算を条件付けすることに基づいている。
提案したアーキテクチャは,ベンチマークデータセット上で最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-12T12:07:02Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。