論文の概要: Modeling Semantic Composition with Syntactic Hypergraph for Video
Question Answering
- arxiv url: http://arxiv.org/abs/2205.06530v1
- Date: Fri, 13 May 2022 09:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-16 13:13:03.652821
- Title: Modeling Semantic Composition with Syntactic Hypergraph for Video
Question Answering
- Title(参考訳): ビデオ質問応答のための構文ハイパーグラフを用いた意味合成のモデル化
- Authors: Zenan Xu, Wanjun Zhong, Qinliang Su, Zijing Ou and Fuwei Zhang
- Abstract要約: ビデオ質問応答の鍵となる課題は、テキストの概念と対応する視覚オブジェクト間の相互意味的アライメントを実現する方法である。
そこで本研究では,まず,既製のツールを用いて,各質問に対する構文依存ツリーを構築することを提案する。
抽出された構成に基づいて、単語をノードとして、合成をハイパーエッジとして見ることで、ハイパーグラフをさらに構築する。
- 参考スコア(独自算出の注目度): 14.033438649614219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in video question answering is how to realize the cross-modal
semantic alignment between textual concepts and corresponding visual objects.
Existing methods mostly seek to align the word representations with the video
regions. However, word representations are often not able to convey a complete
description of textual concepts, which are in general described by the
compositions of certain words. To address this issue, we propose to first build
a syntactic dependency tree for each question with an off-the-shelf tool and
use it to guide the extraction of meaningful word compositions. Based on the
extracted compositions, a hypergraph is further built by viewing the words as
nodes and the compositions as hyperedges. Hypergraph convolutional networks
(HCN) are then employed to learn the initial representations of word
compositions. Afterwards, an optimal transport based method is proposed to
perform cross-modal semantic alignment for the textual and visual semantic
space. To reflect the cross-modal influences, the cross-modal information is
incorporated into the initial representations, leading to a model named
cross-modality-aware syntactic HCN. Experimental results on three benchmarks
show that our method outperforms all strong baselines. Further analyses
demonstrate the effectiveness of each component, and show that our model is
good at modeling different levels of semantic compositions and filtering out
irrelevant information.
- Abstract(参考訳): ビデオ質問応答における重要な課題は、テキストの概念と対応する視覚オブジェクト間の相互意味的アライメントを実現する方法である。
既存の手法は主に、単語表現をビデオ領域と整合させようとしている。
しかしながら、単語表現は、一般的に特定の単語の合成によって記述されるテキスト概念の完全な記述を伝達できないことが多い。
この問題に対処するため,本研究では,まず,既成のツールを用いて各質問に対する構文依存ツリーを構築し,意味のある単語合成の抽出を誘導する手法を提案する。
抽出された構成に基づいて、単語をノードとして、合成をハイパーエッジとして見ることで、ハイパーグラフをさらに構築する。
ハイパーグラフ畳み込みネットワーク(HCN)は、単語合成の初期表現を学ぶために使用される。
その後,テキスト空間と視覚的意味空間のクロスモーダル意味アライメントを行うために,最適なトランスポートベース手法を提案する。
クロスモダリティの影響を反映するため、クロスモダリティ情報は初期表現に組み込まれ、クロスモダリティ認識構文hcn(cross-modality-aware syntactic hcn)と呼ばれるモデルに繋がる。
3つのベンチマークによる実験結果から,本手法は強いベースラインよりも優れていた。
さらに分析により,各成分の有効性を実証し,意味的構成の異なるレベルをモデル化し,無関係な情報のフィルタリングに長けていることを示す。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Boosting Video-Text Retrieval with Explicit High-Level Semantics [115.66219386097295]
VTRのための新しい視覚言語整合モデルHiSEを提案する。
明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。
提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T15:39:54Z) - An Empirical Study on Leveraging Position Embeddings for Target-oriented
Opinion Words Extraction [13.765146062545048]
ToWE(Target-oriented opinion words extract)は、ターゲット指向の感情分析の新しいサブタスクである。
本稿では,BiLSTMに基づくモデルを用いて,位置情報を単語表現に効果的にエンコードできることを示す。
また,構文情報を組み込んだグラフ畳み込みネットワーク(GCN)を用いて,単語表現の強化を行う。
論文 参考訳(メタデータ) (2021-09-02T22:49:45Z) - Multiplex Graph Neural Network for Extractive Text Summarization [34.185093491514394]
抽出テキスト要約は、ある文書から最も代表的な文章を要約として抽出することを目的としている。
文と単語の異なる関係を共同でモデル化する新しい多重グラフ畳み込みネットワーク(Multi-GCN)を提案する。
マルチGCNに基づいて,抽出テキスト要約のための多重グラフ要約(Multi-GraS)モデルを提案する。
論文 参考訳(メタデータ) (2021-08-29T16:11:01Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。