論文の概要: Learning to Discretely Compose Reasoning Module Networks for Video
Captioning
- arxiv url: http://arxiv.org/abs/2007.09049v1
- Date: Fri, 17 Jul 2020 15:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 14:13:59.191112
- Title: Learning to Discretely Compose Reasoning Module Networks for Video
Captioning
- Title(参考訳): ビデオキャプションのための推論モジュールネットワークを離散的に構成する学習
- Authors: Ganchao Tan, Daqing Liu, Meng Wang, Zheng-Jun Zha
- Abstract要約: ビデオキャプションのための新しい視覚的推論手法であるReasoning Module Networks (RMN)を提案する。
RMNには3つの高度なRM時間的推論と,Gumbel近似を用いた言語的損失によって訓練された動的かつ離散的なモジュールセレクタが採用されている。
- 参考スコア(独自算出の注目度): 81.81394228898591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating natural language descriptions for videos, i.e., video captioning,
essentially requires step-by-step reasoning along the generation process. For
example, to generate the sentence "a man is shooting a basketball", we need to
first locate and describe the subject "man", next reason out the man is
"shooting", then describe the object "basketball" of shooting. However,
existing visual reasoning methods designed for visual question answering are
not appropriate to video captioning, for it requires more complex visual
reasoning on videos over both space and time, and dynamic module composition
along the generation process. In this paper, we propose a novel visual
reasoning approach for video captioning, named Reasoning Module Networks (RMN),
to equip the existing encoder-decoder framework with the above reasoning
capacity. Specifically, our RMN employs 1) three sophisticated spatio-temporal
reasoning modules, and 2) a dynamic and discrete module selector trained by a
linguistic loss with a Gumbel approximation. Extensive experiments on MSVD and
MSR-VTT datasets demonstrate the proposed RMN outperforms the state-of-the-art
methods while providing an explicit and explainable generation process. Our
code is available at https://github.com/tgc1997/RMN.
- Abstract(参考訳): ビデオの自然言語記述、すなわちビデオキャプションを生成するには、生成プロセスに沿ってステップバイステップの推論が必要である。
例えば、"a man is shooting a basketball"という文を生成するには、まず主題"man"を見つけて説明し、次に男が"shooting"である理由を説明し、次にシューティングの"basketball"オブジェクトを記述する必要がある。
しかし,視覚質問応答のための既存の視覚的推論手法は,映像キャプションには適していない。空間的,時間的,動的モジュール構成の双方において,映像上でより複雑な視覚的推論が必要となる。
本稿では,既存のエンコーダ・デコーダフレームワークに上記の推論能力を持たせるために,rmn(reasoning module networks)というビデオキャプションのための新しいビジュアル推論手法を提案する。
特に RMN は
1) 3つの洗練された時空間推論モジュール,及び
2) ガムベル近似による言語的損失によって訓練された動的かつ離散的なモジュールセレクタ。
MSVDとMSR-VTTデータセットの大規模な実験により、提案されたRMNは、明示的で説明可能な生成プロセスを提供しながら、最先端の手法よりも優れていることを示した。
私たちのコードはhttps://github.com/tgc1997/rmnで利用可能です。
関連論文リスト
- Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results
for Video Question Answering [42.173245795917026]
本稿では,ビデオ質問応答のための時空間推論モデルSTAIRを提案する。
STAIRは、与えられた質問を複数のサブタスクの階層的な組み合わせに分解するプログラムジェネレータを含むニューラルネットワークである。
我々は、STAIRのパフォーマンス、説明可能性、事前訓練されたモデルとの互換性、プログラムアノテーションが利用できない場合の適用性を示すために、いくつかのビデオ質問応答データセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-01-08T14:01:59Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - METEOR Guided Divergence for Video Captioning [4.601294270277376]
我々は,トークンの置換に耐性のあるビデオキャプションモデルをトレーニングするために,報酬誘導型KLディバージェンスを提案する。
内容完全文と文法音声文の生成におけるHRLエージェントの適合性について,BLEU3,BLEU4,METEORでそれぞれ4.91$,2.23$,10.80$を得た。
論文 参考訳(メタデータ) (2022-12-20T23:30:47Z) - Learning to Collocate Visual-Linguistic Neural Modules for Image
Captioning [80.59607794927363]
視覚言語ニューラルモジュール(LNCVM)の協調学習のための新しいイメージキャプタを提案する。
VQAで広く使われているニューラルモジュールネットワークとは異なり、視覚言語モジュールをコロケーションする作業はより困難である。
私たちのCVLNMはより効果的です。
新しい最先端の129.5 CIDEr-Dを達成し、より堅牢である。
MS-COCOデータセットの実験では、CVLNMの方が効果的であることが示されている。
新しい最先端129.5 CIDErの実現
論文 参考訳(メタデータ) (2022-10-04T03:09:50Z) - LGDN: Language-Guided Denoising Network for Video-Language Modeling [30.99646752913056]
本稿では,映像言語モデリングのための効率的かつ効率的な言語ガイド型認知ネットワーク(LGDN)を提案する。
我々のLGDNは、言語監督下で、不整合または冗長なフレームを動的にフィルタリングし、クロスモーダルトークンレベルのアライメントのために、1ビデオあたり2~4サラントフレームしか取得できない。
論文 参考訳(メタデータ) (2022-09-23T03:35:59Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。