論文の概要: BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues
- arxiv url: http://arxiv.org/abs/2010.10095v1
- Date: Tue, 20 Oct 2020 07:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 05:44:19.923838
- Title: BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues
- Title(参考訳): BiST:ビデオ音声対話のための双方向時空間推論
- Authors: Hung Le, Doyen Sahoo, Nancy F. Chen, Steven C.H. Hoi
- Abstract要約: ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
- 参考スコア(独自算出の注目度): 95.8297116307127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-grounded dialogues are very challenging due to (i) the complexity of
videos which contain both spatial and temporal variations, and (ii) the
complexity of user utterances which query different segments and/or different
objects in videos over multiple dialogue turns. However, existing approaches to
video-grounded dialogues often focus on superficial temporal-level visual cues,
but neglect more fine-grained spatial signals from videos. To address this
drawback, we propose Bi-directional Spatio-Temporal Learning (BiST), a
vision-language neural framework for high-resolution queries in videos based on
textual cues. Specifically, our approach not only exploits both spatial and
temporal-level information, but also learns dynamic information diffusion
between the two feature spaces through spatial-to-temporal and
temporal-to-spatial reasoning. The bidirectional strategy aims to tackle the
evolving semantics of user queries in the dialogue setting. The retrieved
visual cues are used as contextual information to construct relevant responses
to the users. Our empirical results and comprehensive qualitative analysis show
that BiST achieves competitive performance and generates reasonable responses
on a large-scale AVSD benchmark. We also adapt our BiST models to the Video QA
setting, and substantially outperform prior approaches on the TGIF-QA
benchmark.
- Abstract(参考訳): ビデオの対話は、とても難しい
(i)空間的・時間的変動の両方を含むビデオの複雑さ、及び
(i) 複数対話でビデオ内の異なるセグメントや/または異なるオブジェクトを検索するユーザ発話の複雑さ。
しかし、ビデオ地上対話への既存のアプローチは、表面的な時間レベルの視覚的手がかりに焦点を当てることが多いが、ビデオのよりきめ細かい空間的信号は無視する。
そこで本研究では,映像中の高分解能問合せのための視覚言語ニューラルフレームワークであるbi-directional spatio-temporal learning (bist)を提案する。
具体的には,2つの特徴空間間の動的情報拡散を時空間的・時空間的推論を通じて学習する。
双方向戦略は、対話設定におけるユーザクエリの進化的セマンティクスに取り組むことを目的としている。
検索した視覚的手がかりをコンテキスト情報として使用し、ユーザに対して関連する応答を構築する。
実験結果と包括的定性解析により,BiSTは競争性能を達成し,大規模AVSDベンチマークで妥当な応答を生成することが示された。
また、ビデオQA設定にBiSTモデルを適用し、TGIF-QAベンチマークの事前アプローチを大幅に上回っています。
関連論文リスト
- Grounding is All You Need? Dual Temporal Grounding for Video Dialog [48.3411605700214]
本稿では,Dual Temporal Grounding-enhanced Video Dialog Model (DTGVD)を紹介する。
ダイアログ固有の時間領域を予測することによって、二重時間関係を強調する。
また、ビデオコンテンツのフィルタリングや、ビデオとダイアログの両方のコンテキストでの応答のグラウンド化も行う。
論文 参考訳(メタデータ) (2024-10-08T07:48:34Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。