論文の概要: Weakly-Supervised Temporal Article Grounding
- arxiv url: http://arxiv.org/abs/2210.12444v1
- Date: Sat, 22 Oct 2022 13:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 12:53:03.574507
- Title: Weakly-Supervised Temporal Article Grounding
- Title(参考訳): 弱教師付き時空間記事接地
- Authors: Long Chen, Yulei Niu, Brian Chen, Xudong Lin, Guangxing Han,
Christopher Thomas, Hammad Ayyubi, Heng Ji, Shih-Fu Chang
- Abstract要約: ビデオグラウンディングは、意味的に整列されたビデオセグメントを時間的にローカライズすることを目的としている。
微弱に監督された時間的記事グラウンディング(WSAG)を提案する。
WSAGは、すべての接地可能な文をビデオにローカライズすることを目的としており、これらの文はおそらく異なる意味尺度である。
- 参考スコア(独自算出の注目度): 71.24853641047704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a long untrimmed video and natural language queries, video grounding
(VG) aims to temporally localize the semantically-aligned video segments.
Almost all existing VG work holds two simple but unrealistic assumptions: 1)
All query sentences can be grounded in the corresponding video. 2) All query
sentences for the same video are always at the same semantic scale.
Unfortunately, both assumptions make today's VG models fail to work in
practice. For example, in real-world multimodal assets (eg, news articles),
most of the sentences in the article can not be grounded in their affiliated
videos, and they typically have rich hierarchical relations (ie, at different
semantic scales). To this end, we propose a new challenging grounding task:
Weakly-Supervised temporal Article Grounding (WSAG). Specifically, given an
article and a relevant video, WSAG aims to localize all ``groundable''
sentences to the video, and these sentences are possibly at different semantic
scales. Accordingly, we collect the first WSAG dataset to facilitate this task:
YouwikiHow, which borrows the inherent multi-scale descriptions in wikiHow
articles and plentiful YouTube videos. In addition, we propose a simple but
effective method DualMIL for WSAG, which consists of a two-level MIL loss and a
single-/cross- sentence constraint loss. These training objectives are
carefully designed for these relaxed assumptions. Extensive ablations have
verified the effectiveness of DualMIL.
- Abstract(参考訳): ビデオグラウンド(VG)はビデオセグメントを時間的にローカライズすることを目的としている。
既存のVGの仕事のほとんど全ては、単純だが非現実的な仮定を持っている。
1)全ての問合せ文は対応するビデオでグラウンド化できる。
2) 同じビデオに対する全ての問合せ文は、常に同じ意味スケールである。
残念ながら、どちらの仮定も、今日のVGモデルは実際に動作しない。
例えば、現実世界のマルチモーダル・アセット(ニュース記事など)では、記事のほとんどの文は関連ビデオに埋もれず、典型的にはリッチな階層的関係(例えば、異なる意味尺度で)を持つ。
そこで本研究では,新しい挑戦的グラウンドタスクであるweakly supervised temporal article grounding (wsag)を提案する。
具体的には、記事と関連ビデオが与えられた場合、WSAGは、すべての ``groundable'' 文をビデオにローカライズすることを目的としており、これらの文はおそらく異なる意味尺度で実行される。
それゆえ、このタスクを容易にするために、最初のwsagデータセットを収集する。 youwikihowはwikihowの記事や豊富なyoutubeビデオに固有のマルチスケール記述を借用している。
さらに,二段階ミル損失と単文/クロス文制約損失からなるwsagの簡易かつ効果的な方法を提案する。
これらのトレーニング目的は、これらの緩和された仮定のために慎重に設計されている。
DualMILの有効性を広範囲に検証した。
関連論文リスト
- Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。
我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文 参考訳(メタデータ) (2024-08-03T05:35:13Z) - Grounded Video Situation Recognition [37.279915290069326]
本稿では,3段階のトランスフォーマーモデルであるVideoWhispererについて紹介する。
我々のモデルは,一群のイベント(クリップ)で同時に動作し,動詞,動詞とロールのペア,名詞,接頭辞のオンザフライを予測します。
論文 参考訳(メタデータ) (2022-10-19T18:38:10Z) - Unsupervised Temporal Video Grounding with Deep Semantic Clustering [58.95918952149763]
時間的ビデオグラウンドティングは、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。
本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学べるかどうかを考察する。
ペア化された監視が存在しないことを考慮し,クエリ集合全体からすべての意味情報を活用するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
論文 参考訳(メタデータ) (2022-01-14T05:16:33Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - A Simple Yet Effective Method for Video Temporal Grounding with
Cross-Modality Attention [31.218804432716702]
言語誘導ビデオの時間的グラウンド化の課題は、検索文に対応する特定のビデオクリップを、未トリミングビデオでローカライズすることである。
直感的な構造設計が可能な単純な2分岐クロスモダリティアテンション(CMA)モジュールを提案する。
さらに,アノテーションバイアスの影響を緩和し,時間的接地精度を向上させるタスク固有回帰損失関数を導入する。
論文 参考訳(メタデータ) (2020-09-23T16:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。