Fugu-MT 論文翻訳(概要): ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation

論文の概要: ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation

arxiv url: http://arxiv.org/abs/2103.10702v1
Date: Fri, 19 Mar 2021 09:31:08 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-22 14:32:22.969859
Title: ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation
Title（参考訳）: ClawCraneNet: テキストベースのビデオセグメンテーションのためのオブジェクトレベルの関係を活用する
Authors: Chen Liang, Yu Wu, Yawei Luo and Yi Yang
Abstract要約: テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクです。言語指導でオブジェクトを人間に分割する方法を模倣することで、新しいトップダウンアプローチを導入する。本手法は、最先端の手法を大きなマージンで上回る。
参考スコア（独自算出の注目度）: 41.1635597261304
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-based video segmentation is a challenging task that segments out the natural language referred objects in videos. It essentially requires semantic comprehension and fine-grained video understanding. Existing methods introduce language representation into segmentation models in a bottom-up manner, which merely conducts vision-language interaction within local receptive fields of ConvNets. We argue that such interaction is not fulfilled since the model can barely construct region-level relationships given partial observations, which is contrary to the description logic of natural language/referring expressions. In fact, people usually describe a target object using relations with other objects, which may not be easily understood without seeing the whole video. To address the issue, we introduce a novel top-down approach by imitating how we human segment an object with the language guidance. We first figure out all candidate objects in videos and then choose the refereed one by parsing relations among those high-level objects. Three kinds of object-level relations are investigated for precise relationship understanding, i.e., positional relation, text-guided semantic relation, and temporal relation. Extensive experiments on A2D Sentences and J-HMDB Sentences show our method outperforms state-of-the-art methods by a large margin. Qualitative results also show our results are more explainable.
Abstract（参考訳）: テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。基本的にはセマンティック理解ときめ細かいビデオ理解が必要です。既存の手法はボトムアップ方式でセグメンテーションモデルに言語表現を導入しており、これは単にConvNetsの局所受容領域内で視覚と言語間の相互作用を実行するだけである。自然言語/参照表現の記述論理とは対照的な部分的観察によって,モデルが地域レベルの関係をほとんど構築できないため,このような相互作用は実現できないと主張する。実際、人々は通常、他のオブジェクトとの関係を使ってターゲットオブジェクトを記述するが、ビデオ全体を見ることなく簡単には理解できない。この問題に対処するために、言語指導でオブジェクトを人間のセグメント化する方法を模倣して、新しいトップダウンアプローチを導入する。まずビデオ中のすべての候補オブジェクトを特定し、それらのハイレベルオブジェクト間の関係を解析することで参照オブジェクトを選択する。 3種類のオブジェクトレベルの関係を精密な関係理解,すなわち位置関係,テキスト誘導意味関係,時間関係の3種類について検討した。 a2d文とj-hmdb文を広範囲に実験した結果,本手法は最先端手法を大差で上回った。定性的な結果は、より説明しやすいことも示しています。

関連論文リスト

Descrip3D: Enhancing Large Language Model-based 3D Scene Understanding with Object-Level Text Descriptions [28.185661905201222]
Descrip3Dは自然言語を使ってオブジェクト間の関係を明示的にエンコードする新しいフレームワークである。グラウンド、キャプション、質問応答など、さまざまなタスクを統一した推論を可能にする。
論文参考訳（メタデータ） (2025-07-19T09:19:16Z)
InterRVOS: Interaction-aware Referring Video Object Segmentation [37.53744746544299]
ビデオオブジェクトのセグメンテーションの参照は、与えられた自然言語表現に対応するビデオ内のオブジェクトをセグメンテーションすることを目的としている。包括的なビデオ理解では、オブジェクトの役割は、他のエンティティとの相互作用によって定義されることが多い。本稿では,対話に係わるアクターと対象エンティティのセグメンテーションを必要とする新しいタスクである,ビデオオブジェクトの参照を参照することを提案する。
論文参考訳（メタデータ） (2025-06-03T01:16:13Z)
NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-08-18T15:27:06Z)
Context Propagation from Proposals for Semantic Video Object Segmentation [1.223779595809275]
本稿では,意味オブジェクトセグメンテーションのためのビデオにおける意味的文脈関係を学習するための新しいアプローチを提案する。提案手法は,オブジェクトのキー進化と意味時間領域上のオブジェクト間の関係をエンコードするビデオオブジェクトから,セマンティックコンテキストを導出する。
論文参考訳（メタデータ） (2024-07-08T14:44:18Z)
Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。 1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文参考訳（メタデータ） (2022-12-27T09:13:19Z)
Contrastive Video-Language Segmentation [41.1635597261304]
本稿では,ビデオコンテンツ中の自然言語文によって参照される特定のオブジェクトをセグメント化する問題に焦点をあてる。本研究では, 視覚的・言語的モダリティを, 対照的な学習目的を通した明示的な方法で解釈することを提案する。
論文参考訳（メタデータ） (2021-09-29T01:40:58Z)
Object Priors for Classifying and Localizing Unseen Actions [45.91275361696107]
本稿では,局所人物と物体検出器をその空間的関係とともに符号化する3つの空間的対象先行法を提案する。上述の3つのセマンティックオブジェクトプリエントを導入し、単語の埋め込みを通じてセマンティックマッチングを拡張する。ビデオ埋め込みは、空間オブジェクトと意味オブジェクトをプリエントする。
論文参考訳（メタデータ） (2021-04-10T08:56:58Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)
DORi: Discovering Object Relationship for Moment Localization of a Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文参考訳（メタデータ） (2020-10-13T09:50:29Z)
Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文参考訳（メタデータ） (2020-07-17T08:20:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。