論文の概要: Building a Video-and-Language Dataset with Human Actions for Multimodal
Logical Inference
- arxiv url: http://arxiv.org/abs/2106.14137v1
- Date: Sun, 27 Jun 2021 03:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 18:07:21.062530
- Title: Building a Video-and-Language Dataset with Human Actions for Multimodal
Logical Inference
- Title(参考訳): マルチモーダル論理推論のためのヒューマンアクションを用いたビデオ・言語データセットの構築
- Authors: Riko Suzuki and Hitomi Yanaka and Koji Mineshima and Daisuke Bekki
- Abstract要約: 本稿では,マルチモーダル論理推論のための人間行動を用いたビデオ・言語データセットを提案する。
データセットは200のビデオ、5,554のアクションラベル、および1,942のアクション三つ子からなる。
- 参考スコア(独自算出の注目度): 21.341978639261715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a new video-and-language dataset with human actions for
multimodal logical inference, which focuses on intentional and aspectual
expressions that describe dynamic human actions. The dataset consists of 200
videos, 5,554 action labels, and 1,942 action triplets of the form <subject,
predicate, object> that can be translated into logical semantic
representations. The dataset is expected to be useful for evaluating multimodal
inference systems between videos and semantically complicated sentences
including negation and quantification.
- Abstract(参考訳): 本稿では,動的な人間の行動を記述する意図的・アスペクト的表現に着目した,多モーダル論理推論のための人間の行動を用いたビデオ・言語データセットを提案する。
データセットは200のビデオ、5,554のアクションラベル、および論理意味表現に変換可能な<subject, predicate, object>形式の1,942のアクショントリプレットで構成されている。
このデータセットは、ビデオと、否定や量子化を含む意味論的に複雑な文間のマルチモーダル推論システムを評価するのに役立つと期待されている。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - A Grammatical Compositional Model for Video Action Detection [24.546886938243393]
典型的なAnd-Orグラフに基づく行動検出のための新しい文法合成モデル(GCM)を提案する。
本モデルは,文法モデルの構成性とDNNのリッチな特徴を表現する能力の両面を活用するために,階層的な動作の固有構造と潜時的関係を利用する。
論文 参考訳(メタデータ) (2023-10-04T15:24:00Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。