論文の概要: Measuring Compositional Consistency for Video Question Answering
- arxiv url: http://arxiv.org/abs/2204.07190v1
- Date: Thu, 14 Apr 2022 18:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 11:22:10.818639
- Title: Measuring Compositional Consistency for Video Question Answering
- Title(参考訳): ビデオ質問応答における構成整合性の測定
- Authors: Mona Gandhi, Mustafa Omer Gul, Eva Prakash, Madeleine
Grunde-McLaughlin, Ranjay Krishna and Maneesh Agrawala
- Abstract要約: 最近の質問ベンチマークは、最先端のモデルは構成的な疑問に答えるのに苦労していることを示している。
AGQADecompは、グラフごとの平均11.49ドルのサブクエストと、合計4.55Mドルの新しいサブクエストを含むベンチマークである。
モデルは、ほとんどの構成を通して正しく推論できないか、または答えに到達するために誤った推論に依存しているかのどちらかを見つけます。
- 参考スコア(独自算出の注目度): 32.6742789254609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video question answering benchmarks indicate that state-of-the-art
models struggle to answer compositional questions. However, it remains unclear
which types of compositional reasoning cause models to mispredict. Furthermore,
it is difficult to discern whether models arrive at answers using compositional
reasoning or by leveraging data biases. In this paper, we develop a question
decomposition engine that programmatically deconstructs a compositional
question into a directed acyclic graph of sub-questions. The graph is designed
such that each parent question is a composition of its children. We present
AGQA-Decomp, a benchmark containing $2.3M$ question graphs, with an average of
$11.49$ sub-questions per graph, and $4.55M$ total new sub-questions. Using
question graphs, we evaluate three state-of-the-art models with a suite of
novel compositional consistency metrics. We find that models either cannot
reason correctly through most compositions or are reliant on incorrect
reasoning to reach answers, frequently contradicting themselves or achieving
high accuracies when failing at intermediate reasoning steps.
- Abstract(参考訳): 最近のビデオ質問応答ベンチマークは、最先端のモデルが構成的質問に答えるのに苦労していることを示している。
しかし、どの種類の構成的推論がモデルを誤予測させるかは定かではない。
さらに、構成的推論を用いてモデルが回答に到達するか、あるいはデータのバイアスを利用して判断することは困難である。
本稿では,合成質問を部分質問の有向非巡回グラフにプログラム的に分解する質問分解エンジンを開発した。
グラフは、それぞれの親の質問がその子供の構成であるように設計されている。
AGQA-Decompは、2.3M$の質問グラフを含むベンチマークで、グラフごとの平均11.49$のサブクエストと4.55M$の新たなサブクエストがある。
質問グラフを用いて,新しい構成整合性指標を用いて,最先端の3つのモデルを評価する。
モデルは、ほとんどの構成で正しく推論できないか、あるいは不正確な推論に頼り、しばしば矛盾し、中間的な推論ステップで失敗すると高い確率に達することが分かる。
関連論文リスト
- Measuring and Narrowing the Compositionality Gap in Language Models [116.5228850227024]
モデルがすべてのサブプロブレムに正しく答えられる頻度を計測するが、全体の解は生成しない。
我々は,思考の連鎖をさらに改善する新たな手法である自己認識法を提案する。
論文 参考訳(メタデータ) (2022-10-07T06:50:23Z) - ChartQA: A Benchmark for Question Answering about Charts with Visual and
Logical Reasoning [7.192233658525916]
9.6Kの人書き質問と23.1Kの人書きチャートの要約から生成される質問に関するベンチマークを示す。
本稿では,視覚的特徴とグラフのデータテーブルを組み合わせた2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-03-19T05:00:30Z) - Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。
オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文 参考訳(メタデータ) (2022-02-16T05:59:53Z) - ExplaGraphs: An Explanation Graph Generation Task for Structured
Commonsense Reasoning [65.15423587105472]
スタンス予測のための説明グラフ生成の新しい生成および構造化コモンセンスリゾニングタスク(および関連するデータセット)を紹介します。
具体的には、信念と議論が与えられた場合、モデルは、議論が信念を支持しているかどうかを予測し、予測されたスタンスに対する非自明で完全で曖昧な説明として機能する常識強化グラフを生成する必要がある。
グラフの83%は、様々な構造と推論深度を持つ外部のコモンセンスノードを含んでいる。
論文 参考訳(メタデータ) (2021-04-15T17:51:36Z) - AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning [33.29431287523664]
合成時間的推論のピンポイント化のための新しいベンチマークを提案する。
AGQAには、9.6Kビデオのアンバランスな解答ペアが1億2200万ドルある。
人間の評価は、我々の質問と回答のペアの86.02%$を正し、最良のモデルは47.74%$の精度しか達成していない。
論文 参考訳(メタデータ) (2021-03-30T00:24:01Z) - SOrT-ing VQA Models : Contrastive Gradient Learning for Improved
Consistency [64.67155167618894]
本稿では、画像上の推論問題と最も強く相関する質問を決定するために、勾配に基づく解釈可能性アプローチを提案する。
次に,サブクエスト指向チューニング (SOrT) と呼ばれる,相対的勾配学習に基づくアプローチを提案する。
我々は、SOrTが既存のベースラインよりも最大6.5%のモデルの一貫性を向上し、また、視覚的グラウンド化を改善していることを示す。
論文 参考訳(メタデータ) (2020-10-20T05:15:48Z) - Latent Compositional Representations Improve Systematic Generalization
in Grounded Question Answering [46.87501300706542]
接地された質問応答における最先端のモデルは、しばしば明示的に分解を行わない。
本稿では,全ての質問に対する表現と記述をボトムアップで構成的に計算するモデルを提案する。
私たちのモデルは、エンドツーエンド(回答)のみによって駆動される潜木を誘導します。
論文 参考訳(メタデータ) (2020-07-01T06:22:51Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。