論文の概要: Relational Graph Learning for Grounded Video Description Generation
- arxiv url: http://arxiv.org/abs/2112.00967v1
- Date: Thu, 2 Dec 2021 03:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 13:44:38.465643
- Title: Relational Graph Learning for Grounded Video Description Generation
- Title(参考訳): グラウンドドビデオ記述生成のための関係グラフ学習
- Authors: Wenqiao Zhang, Xin Eric Wang, Siliang Tang, Haizhou Shi, Haocheng Shi,
Jun Xiao, Yueting Zhuang, William Yang Wang
- Abstract要約: 接地記述(GVD)は、キャプションモデルが適切なビデオ領域に動的に参加することを奨励し、記述を生成する。
このような設定は、キャプションモデルの決定を説明し、モデルが記述中のオブジェクト単語を幻覚させるのを防ぐのに役立つ。
我々はGVDのための新しいリレーショナルグラフ学習フレームワークを設計し、細粒度視覚概念を探索するために、言語に精通したシーングラフ表現を設計する。
- 参考スコア(独自算出の注目度): 85.27028390401136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounded video description (GVD) encourages captioning models to attend to
appropriate video regions (e.g., objects) dynamically and generate a
description. Such a setting can help explain the decisions of captioning models
and prevents the model from hallucinating object words in its description.
However, such design mainly focuses on object word generation and thus may
ignore fine-grained information and suffer from missing visual concepts.
Moreover, relational words (e.g., "jump left or right") are usual
spatio-temporal inference results, i.e., these words cannot be grounded on
certain spatial regions. To tackle the above limitations, we design a novel
relational graph learning framework for GVD, in which a language-refined scene
graph representation is designed to explore fine-grained visual concepts.
Furthermore, the refined graph can be regarded as relational inductive
knowledge to assist captioning models in selecting the relevant information it
needs to generate correct words. We validate the effectiveness of our model
through automatic metrics and human evaluation, and the results indicate that
our approach can generate more fine-grained and accurate description, and it
solves the problem of object hallucination to some extent.
- Abstract(参考訳): グラウンドドビデオ記述(GVD)は、キャプションモデルに適切なビデオ領域(例えばオブジェクト)への参加を動的に促し、記述を生成する。
このような設定は、キャプションモデルの決定を説明し、モデルが記述中のオブジェクト単語を幻覚させるのを防ぐのに役立つ。
しかし、この設計は主にオブジェクト語生成に焦点を当てており、細かな情報を無視し、視覚概念の欠如に苦しむことがある。
さらに、リレーショナルな単語(例えば「ジャンプ左」や「右」など)は通常の時空間的推測結果である。
上記の制約に対処するため,我々はGVDのための新しい関係グラフ学習フレームワークを設計し,言語に精通したシーングラフ表現を視覚的概念のきめ細かな表現として設計する。
さらに、洗練されたグラフは、正しい単語を生成するために必要な関連情報を選択する際にキャプションモデルを支援する関係帰納的知識と見なすことができる。
自動測定と人的評価によるモデルの有効性を検証するとともに,提案手法がよりきめ細かな正確な記述を生成できることを示すとともに,対象幻覚の問題をある程度解決できることを示す。
関連論文リスト
- Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。