論文の概要: Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering
- arxiv url: http://arxiv.org/abs/2112.06197v1
- Date: Sun, 12 Dec 2021 10:35:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 15:49:50.205923
- Title: Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering
- Title(参考訳): マルチグラニュラー質問応答のための条件付きグラフ階層としてのビデオ
- Authors: Junbin Xiao, Angela Yao, Zhiyuan Liu, Yicong Li, Wei Ji, Tat-Seng Chua
- Abstract要約: ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
- 参考スコア(独自算出の注目度): 80.94367625007352
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video question answering requires models to understand and reason about both
complex video and language data to correctly derive answers. Existing efforts
focus on designing sophisticated cross-modal interactions to fuse the
information from two modalities, while encoding the video and question
holistically as frame and word sequences. Despite their success, these methods
are essentially revolving around the sequential nature of video- and
question-contents, providing little insight to the problem of
question-answering and lacking interpretability as well. In this work, we argue
that while video is presented in frame sequence, the visual elements (eg,
objects, actions, activities and events) are not sequential but rather
hierarchical in semantic space. To align with the multi-granular essence of
linguistic concepts in language queries, we propose to model video as a
conditional graph hierarchy which weaves together visual facts of different
granularity in a level-wise manner, with the guidance of corresponding textual
cues. Despite the simplicity, our extensive experiments demonstrate the
superiority of such conditional hierarchical graph architecture, with clear
performance improvements over prior methods and also better generalization
across different type of questions. Further analyses also consolidate the
model's reliability as it shows meaningful visual-textual evidences for the
predicted answers.
- Abstract(参考訳): ビデオ質問応答には、複雑なビデオデータと言語データの両方を理解し、推論し、正しい答えを導き出すモデルが必要である。
既存の取り組みは、2つのモダリティから情報を取り除き、ビデオと質問をフレームとワードシーケンスとしてホリスティックにエンコードすることに焦点を当てている。
その成功にもかかわらず、これらの手法は基本的にビデオと質問内容の連続的な性質を中心に展開しており、質問応答の問題に対する洞察が乏しく、解釈可能性も欠如している。
本研究では,ビデオはフレームシーケンスで表現されるが,視覚的要素(オブジェクト,アクション,アクティビティ,イベント)は連続ではなく,むしろ意味空間における階層的である,と論じる。
言語問合せにおける言語概念の多面的本質に対応するために,異なる粒度の視覚的事実をレベル方向に織り込む条件付きグラフ階層として,対応するテクスト的手がかりのガイダンスを用いて映像をモデル化することを提案する。
単純さにもかかわらず、我々の広範な実験は、そのような条件付き階層グラフアーキテクチャの優位性を実証し、従来の手法よりも明確な性能向上と、異なるタイプの質問に対するより優れた一般化を実現した。
さらなる分析により、予測された答えに対して有意義な視覚的・テキスト的証拠を示すため、モデルの信頼性も強化される。
関連論文リスト
- Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文 参考訳(メタデータ) (2024-01-06T09:38:55Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - Adaptive Hierarchical Graph Reasoning with Semantic Coherence for
Video-and-Language Inference [81.50675020698662]
Video-and-Language Inferenceは、最近提案された共同ビデオ・言語理解のタスクである。
本稿では,複雑な相互作用に関する映像の深い理解を実現する適応階層型グラフネットワークを提案する。
3つの階層から適応階層型グラフネットワークのセマンティックコヒーレンスを明示的に促進するためにセマンティックコヒーレンス学習を導入する。
論文 参考訳(メタデータ) (2021-07-26T15:23:19Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - Bridge to Answer: Structure-aware Graph Interaction Network for Video
Question Answering [56.65656211928256]
本稿では,ある映像に対する質問に対する正しい回答を推測する新しい手法である「回答のためのブリッジ」を提案する。
映像と問合せの関係を利用して,問答間インタラクションを用いて各視覚ノードを有効化することにより,質問条件付きビジュアルグラフを学習する。
本手法は,映像質問応答に強力な能力を示す外観と動作に起因する質問条件付き視覚表現を学習できる。
論文 参考訳(メタデータ) (2021-04-29T03:02:37Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。