論文の概要: Object Relational Graph with Teacher-Recommended Learning for Video
Captioning
- arxiv url: http://arxiv.org/abs/2002.11566v1
- Date: Wed, 26 Feb 2020 15:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 13:57:00.273109
- Title: Object Relational Graph with Teacher-Recommended Learning for Video
Captioning
- Title(参考訳): ビデオキャプションのための教師推薦学習を用いたオブジェクト関係グラフ
- Authors: Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu,
Zhengjun Zha
- Abstract要約: 本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
- 参考スコア(独自算出の注目度): 92.48299156867664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Taking full advantage of the information from both vision and language is
critical for the video captioning task. Existing models lack adequate visual
representation due to the neglect of interaction between object, and sufficient
training for content-related words due to long-tailed problems. In this paper,
we propose a complete video captioning system including both a novel model and
an effective training strategy. Specifically, we propose an object relational
graph (ORG) based encoder, which captures more detailed interaction features to
enrich visual representation. Meanwhile, we design a teacher-recommended
learning (TRL) method to make full use of the successful external language
model (ELM) to integrate the abundant linguistic knowledge into the caption
model. The ELM generates more semantically similar word proposals which extend
the ground-truth words used for training to deal with the long-tailed problem.
Experimental evaluations on three benchmarks: MSVD, MSR-VTT and VATEX show the
proposed ORG-TRL system achieves state-of-the-art performance. Extensive
ablation studies and visualizations illustrate the effectiveness of our system.
- Abstract(参考訳): 視覚と言語の両方から情報を最大限に活用することは、ビデオキャプションタスクにとって重要である。
既存のモデルでは、オブジェクト間の相互作用の欠如と、長い尾の問題によるコンテンツ関連単語の十分な訓練により、十分な視覚表現が欠如している。
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
ELMはより意味論的に類似した単語提案を生成し、長い尾の問題に対処するために訓練に使用される接尾辞を拡張する。
MSVD, MSR-VTT, VATEX の3つの評価結果から,提案したORG-TRL システムは最先端の性能を実現することを示す。
大規模なアブレーション研究と可視化は,我々のシステムの有効性を示している。
関連論文リスト
- Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。