論文の概要: End-to-End Modeling via Information Tree for One-Shot Natural Language
Spatial Video Grounding
- arxiv url: http://arxiv.org/abs/2203.08013v1
- Date: Tue, 15 Mar 2022 15:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 15:48:53.994821
- Title: End-to-End Modeling via Information Tree for One-Shot Natural Language
Spatial Video Grounding
- Title(参考訳): ワンショット自然言語空間ビデオグラウンドのための情報ツリーによるエンドツーエンドモデリング
- Authors: Mengze Li, Tianbao Wang, Haoyu Zhang, Shengyu Zhang, Zhou Zhao, Jiaxu
Miao, Wenqiao Zhang, Wenming Tan, Jin Wang, Peng Wang, Shiliang Pu and Fei Wu
- Abstract要約: 自然言語空間ビデオグラウンドティングは,ビデオフレーム内の関連オブジェクトをクエリとして記述文で検出することを目的としている。
本研究では, ワンショット映像のグラウンド化について検討し, エンド・ツー・エンド方式で, 一つのフレームのみをラベル付けした全ビデオフレームで自然言語を学習する。
- 参考スコア(独自算出の注目度): 90.86402840638941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language spatial video grounding aims to detect the relevant objects
in video frames with descriptive sentences as the query. In spite of the great
advances, most existing methods rely on dense video frame annotations, which
require a tremendous amount of human effort. To achieve effective grounding
under a limited annotation budget, we investigate one-shot video grounding, and
learn to ground natural language in all video frames with solely one frame
labeled, in an end-to-end manner. One major challenge of end-to-end one-shot
video grounding is the existence of videos frames that are either irrelevant to
the language query or the labeled frames. Another challenge relates to the
limited supervision, which might result in ineffective representation learning.
To address these challenges, we designed an end-to-end model via Information
Tree for One-Shot video grounding (IT-OS). Its key module, the information
tree, can eliminate the interference of irrelevant frames based on branch
search and branch cropping techniques. In addition, several self-supervised
tasks are proposed based on the information tree to improve the representation
learning under insufficient labeling. Experiments on the benchmark dataset
demonstrate the effectiveness of our model.
- Abstract(参考訳): 自然言語空間ビデオグラウンドティングは,ビデオフレーム内の関連オブジェクトをクエリとして記述文で検出することを目的としている。
大きな進歩にもかかわらず、既存の手法の多くは密集したビデオフレームアノテーションに依存しており、膨大な量の人的努力を必要とする。
アノテーション予算の制限下で効果的なグラウンド化を実現するため,ワンショット映像のグラウンド化について検討し,一フレームだけラベル付けした動画フレームで自然言語をエンド・ツー・エンドで学習する。
エンドツーエンドのワンショットビデオグラウンディングの大きな課題のひとつは、言語クエリやラベル付きフレームとは無関係なビデオフレームの存在である。
もう一つの課題は、限られた監督に関係しており、非効果的な表現学習をもたらす可能性がある。
これらの課題に対処するため、我々はワンショットビデオグラウンドディング(IT-OS)のためのインフォメーションツリーを介してエンドツーエンドモデルを設計した。
そのキーモジュールであるインフォメーションツリーは、分岐探索と分岐収穫技術に基づく無関係フレームの干渉を取り除くことができる。
また,情報木に基づく複数の自己教師ありタスクを提案し,ラベルの不十分な表現学習を改善する。
ベンチマークデータセットの実験は、我々のモデルの有効性を示す。
関連論文リスト
- Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - LGDN: Language-Guided Denoising Network for Video-Language Modeling [30.99646752913056]
本稿では,映像言語モデリングのための効率的かつ効率的な言語ガイド型認知ネットワーク(LGDN)を提案する。
我々のLGDNは、言語監督下で、不整合または冗長なフレームを動的にフィルタリングし、クロスモーダルトークンレベルのアライメントのために、1ビデオあたり2~4サラントフレームしか取得できない。
論文 参考訳(メタデータ) (2022-09-23T03:35:59Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Multi-Scale Self-Contrastive Learning with Hard Negative Mining for
Weakly-Supervised Query-based Video Grounding [27.05117092371221]
本稿では,弱教師付き環境下での問合せに基づくビデオグラウンド処理に対処するための自己コントラスト学習フレームワークを提案する。
まず,クエリのセマンティクスを参照するフレームワイドマッチングスコアを学習し,前景フレームを予測できる新しいグラウンド方式を提案する。
第二に、予測されたフレームは比較的粗いので、隣接するフレームに類似した外観を示すため、粗いから微妙な対照的な学習パラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-08T04:01:08Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。