論文の概要: CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes
- arxiv url: http://arxiv.org/abs/2404.01299v1
- Date: Mon, 1 Apr 2024 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 21:16:45.271598
- Title: CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes
- Title(参考訳): CausalChaos! ダイナミック・ビジュアル・シーンにおける長時間の因果連鎖に対する包括的因果行動質問のためのデータセット
- Authors: Ting En Lam, Yuhan Chen, Elston Tan, Eric Peh, Ruirui Chen, Paritosh Parmar, Basura Fernando,
- Abstract要約: CausalChaos!は『Tom and Jerry』の漫画シリーズをベースとした、斬新で挑戦的なWhy-QAデータセットである。
思慮深い質問と多段階の回答によって、我々のデータセットは、動的相互作用や視覚に埋め込まれたずっと長い因果連鎖を含んでいる。
- 参考スコア(独自算出の注目度): 15.972385783849843
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Causal video question answering (QA) has garnered increasing interest, yet existing datasets often lack depth in causal reasoning analysis. To address this gap, we capitalize on the unique properties of cartoons and construct CausalChaos!, a novel, challenging causal Why-QA dataset built upon the iconic "Tom and Jerry" cartoon series. With thoughtful questions and multi-level answers, our dataset contains much longer causal chains embedded in dynamic interactions and visuals, at the same time principles of animation allows animators to create well-defined, unambiguous causal relationships. These factors allow models to solve more challenging, yet well-defined causal relationships. We also introduce hard negative mining, including CausalConfusion version. While models perform well, there is much room for improvement, especially, on open-ended answers. We identify more advanced/explicit causal relationship modeling and joint modeling of vision and language as the immediate areas for future efforts to focus upon. Along with the other complementary datasets, our new challenging dataset will pave the way for these developments in the field. We will release our dataset, codes, and models to help future efforts in this domain.
- Abstract(参考訳): 因果的ビデオ質問応答(QA)はますます関心を集めているが、既存のデータセットは因果的推論分析の深さを欠いていることが多い。
このギャップに対処するために、漫画のユニークな特性を活かし、象徴的な「トムとジェリー」の漫画シリーズの上に構築された新しい因果関係のWhy-QAデータセットであるCausalChaos!を構築します。
思慮深い質問やマルチレベルな回答によって、私たちのデータセットは、動的相互作用や視覚に埋め込まれたずっと長い因果関係を含むと同時に、アニメーションの原則によって、アニメーターは明確に定義され、曖昧な因果関係を作ることができる。
これらの要因により、モデルはより困難で明確に定義された因果関係を解決できる。
CausalConfusionバージョンを含む、厳しい負のマイニングも導入しています。
モデルはうまく機能しますが、特にオープンな回答では改善の余地がたくさんあります。
今後注目すべき課題として,より先進的かつ精巧な因果関係モデリングと視覚と言語の統合モデリングが注目される。
他の補完的なデータセットとともに、私たちの新しい挑戦的なデータセットは、この分野におけるこれらの発展の道を開くでしょう。
この領域における今後の取り組みを支援するために、データセット、コード、モデルをリリースします。
関連論文リスト
- Causal Question Answering with Reinforcement Learning [0.3499042782396683]
因果質問は、異なる事象や現象の間の因果関係について問う。
本稿では,因果グラフを用いて因果質問に回答することを目的とする。
本稿では,因果的疑問に答えるために,グラフを探索するアクタ・クリティカル・エージェントを提案する。
論文 参考訳(メタデータ) (2023-11-05T20:33:18Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Towards Causal Foundation Model: on Duality between Causal Inference and Attention [18.046388712804042]
複雑なタスクのための因果認識基盤モデルを構築するための第一歩を踏み出します。
我々はCInA(Causal Inference with Attention)と呼ばれる新しい理論的手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T22:28:34Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question
Answering [16.502197578954917]
ビデオQAのグラフベースのメソッドは通常、質問のキーワードを無視し、機能を集約するために単純なグラフを使用する。
ビデオQAのためのキーワード対応相対時空間(KRST)グラフネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T04:41:32Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - On the causality-preservation capabilities of generative modelling [0.0]
GANの因果保存能力と生成した合成データが因果質問に確実に答えられるかどうかを検討する。
これは、GANによって生成される合成データの因果解析を、より寛大な仮定で行うことによって行われる。
論文 参考訳(メタデータ) (2023-01-03T14:09:15Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - Joint learning of object graph and relation graph for visual question
answering [19.97265717398179]
DM-GNN(Dual Message-passing enhanced Graph Neural Network)を導入する。
DM-GNNは、マルチスケールのシーングラフ情報を適切に符号化することにより、バランスの取れた表現を得ることができる。
我々は、GQA、VG、モチーフ-VGを含むデータセットに関する広範な実験を行い、新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2022-05-09T11:08:43Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。