論文の概要: Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language
- arxiv url: http://arxiv.org/abs/2011.09530v1
- Date: Wed, 18 Nov 2020 20:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 03:47:26.115764
- Title: Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language
- Title(参考訳): ビデオキャプションのためのニューロシンボリック表現:視覚と言語に誘導的ビアーゼを応用した1例
- Authors: Hassan Akbari, Hamid Palangi, Jianwei Yang, Sudha Rao, Asli
Celikyilmaz, Roland Fernandez, Paul Smolensky, Jianfeng Gao, Shih-Fu Chang
- Abstract要約: ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
- 参考スコア(独自算出の注目度): 148.0843278195794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neuro-symbolic representations have proved effective in learning structure
information in vision and language. In this paper, we propose a new model
architecture for learning multi-modal neuro-symbolic representations for video
captioning. Our approach uses a dictionary learning-based method of learning
relations between videos and their paired text descriptions. We refer to these
relations as relative roles and leverage them to make each token role-aware
using attention. This results in a more structured and interpretable
architecture that incorporates modality-specific inductive biases for the
captioning task. Intuitively, the model is able to learn spatial, temporal, and
cross-modal relations in a given pair of video and text. The disentanglement
achieved by our proposal gives the model more capacity to capture multi-modal
structures which result in captions with higher quality for videos. Our
experiments on two established video captioning datasets verifies the
effectiveness of the proposed approach based on automatic metrics. We further
conduct a human evaluation to measure the grounding and relevance of the
generated captions and observe consistent improvement for the proposed model.
The codes and trained models can be found at
https://github.com/hassanhub/R3Transformer
- Abstract(参考訳): 神経シンボリック表現は視覚と言語の構造情報を学習するのに有効であることが証明されている。
本稿では,ビデオキャプションのためのマルチモーダルニューロシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法は,ビデオとそれらのペアテキスト記述の関係を学習する辞書学習に基づく手法である。
これらの関係を相対的な役割と呼び、それを利用して各トークンの役割を注意して認識する。
これにより、キャプションタスクに対するモダリティ固有の帰納バイアスを含む、より構造化され解釈可能なアーキテクチャが得られる。
直感的には、モデルは所定のビデオとテキストのペアで、空間的、時間的、および相互モーダルな関係を学習することができる。
提案手法では,マルチモーダル構造のキャプチャ能力が向上し,キャプションの質が向上し,キャプションの品質が向上した。
2つの確立されたビデオキャプションデータセットに対する実験により,提案手法の有効性が検証された。
さらに人による評価を行い、生成されたキャプションの接地と関連性を測定し、提案モデルに対する一貫した改善を観察する。
コードとトレーニングされたモデルはhttps://github.com/hassanhub/R3Transformerで見ることができる。
関連論文リスト
- Video In-context Learning [46.40277880351059]
本稿では,既存のビデオクリップからモデルが始まり,様々な将来的なシーケンスを生成するビデオインコンテキスト学習について検討する。
これを実現するために、タスクを明確に定義し、ビデオデータセット上で自動回帰変換器を訓練する。
客観的尺度と主観的尺度の両方を含む様々な評価指標を設計し、生成結果の視覚的品質と意味的精度を実証する。
論文 参考訳(メタデータ) (2024-07-10T04:27:06Z) - Enhancing Gait Video Analysis in Neurodegenerative Diseases by Knowledge Augmentation in Vision Language Model [10.742625681420279]
大規模な事前学習型視覚言語モデル(VLM)に基づいて,患者の歩行映像の視覚的,テキスト的,数値的表現を学習し,改善する。
結果から,本モデルはビデオベース分類タスクにおいて最先端の手法よりも優れるだけでなく,学習したクラス固有のテキスト特徴を自然言語記述に包括的にデコードすることがわかった。
論文 参考訳(メタデータ) (2024-03-20T17:03:38Z) - EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。
本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。
EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-04-19T06:36:02Z) - CaMEL: Mean Teacher Learning for Image Captioning [47.9708610052655]
画像キャプションのためのトランスフォーマーベースの新しいアーキテクチャであるCaMELを提案する。
提案手法は,訓練期間中に相互に学習する2つの相互接続型言語モデルの相互作用を利用する。
実験により,COCOデータセットと異なる視覚的特徴抽出器との併用により,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-02-21T19:04:46Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。