論文の概要: Learning to Agree on Vision Attention for Visual Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2302.02117v1
- Date: Sat, 4 Feb 2023 07:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:04:09.215482
- Title: Learning to Agree on Vision Attention for Visual Commonsense Reasoning
- Title(参考訳): Visual Commonsense Reasoningのためのビジョンアテンションの学習
- Authors: Zhenyang Li, Yangyang Guo, Yangyang Guo, Fan Liu, Liqiang Nie, Mohan
Kankanhalli
- Abstract要約: VCRモデルは、画像に関する質問に答えることを目的としており、続いて、前の回答プロセスの合理性予測が続く。
既存の手法は2つのプロセス間の重要な関係を無視し、最適化されたモデルの性能をもたらす。
本稿では,これら2つのプロセスを統一的な枠組みで効果的に処理する新しい視覚的アライメント手法を提案する。
- 参考スコア(独自算出の注目度): 50.904275811951614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Commonsense Reasoning (VCR) remains a significant yet challenging
research problem in the realm of visual reasoning. A VCR model generally aims
at answering a textual question regarding an image, followed by the rationale
prediction for the preceding answering process. Though these two processes are
sequential and intertwined, existing methods always consider them as two
independent matching-based instances. They, therefore, ignore the pivotal
relationship between the two processes, leading to sub-optimal model
performance. This paper presents a novel visual attention alignment method to
efficaciously handle these two processes in a unified framework. To achieve
this, we first design a re-attention module for aggregating the vision
attention map produced in each process. Thereafter, the resultant two sets of
attention maps are carefully aligned to guide the two processes to make
decisions based on the same image regions. We apply this method to both
conventional attention and the recent Transformer models and carry out
extensive experiments on the VCR benchmark dataset. The results demonstrate
that with the attention alignment module, our method achieves a considerable
improvement over the baseline methods, evidently revealing the feasibility of
the coupling of the two processes as well as the effectiveness of the proposed
method.
- Abstract(参考訳): visual commonsense reasoning (vcr) は、視覚推論の分野では重要なが困難な研究課題である。
vcrモデルは一般的に、画像に関するテキスト質問に応答することを目的としており、その後、前回の応答プロセスの合理化予測を行う。
これら2つのプロセスは逐次的かつ相互に絡み合っているが、既存のメソッドは常にこれらを2つの独立したマッチングベースのインスタンスと見なしている。
したがって、2つのプロセス間の重要な関係を無視し、最適化されたモデル性能に繋がる。
本稿では,これら2つのプロセスを統一的な枠組みで効果的に処理する新しい視覚的アライメント手法を提案する。
そこで我々はまず,各プロセスで生成した視覚注意マップを集約する再認識モジュールを設計する。
その後、2つの注意マップのセットを注意深く並べて、同じ画像領域に基づいて2つのプロセスを導く。
本稿では,本手法を従来の注意と最近のTransformerモデルの両方に適用し,VCRベンチマークデータセット上で広範な実験を行う。
その結果,アテンションアライメントモジュールにより,本手法は基本手法よりも大幅に改善され,両手法の結合性および提案手法の有効性が明らかとなった。
関連論文リスト
- Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - S2-Net: Self-supervision Guided Feature Representation Learning for
Cross-Modality Images [0.0]
モダリティ間の画像ペアは、通信の特徴表現を可能な限り近いものにするのに失敗することが多い。
本稿では,最近成功した検出・記述パイプラインに基づいて,モーダリティ間特徴表現学習ネットワークであるS2-Netを設計する。
本稿では,自己教師型学習とよく設計された損失関数を導入し,本来の利点を捨てることなくトレーニングを指導する。
論文 参考訳(メタデータ) (2022-03-28T08:47:49Z) - Joint Answering and Explanation for Visual Commonsense Reasoning [46.44588492897933]
Visual Commonsense Reasoningは、よりハイレベルな視覚的理解を追求する試みである。
与えられた画像に対する質問応答と、回答説明のための合理的推論の2つの必須プロセスで構成されている。
本稿では,質問応答と推論プロセスの合理化を両立させるための知識蒸留強化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-25T11:26:52Z) - Light Field Saliency Detection with Dual Local Graph Learning
andReciprocative Guidance [148.9832328803202]
我々は、グラフネットワークを介して焦点スタック内のインフォメーション融合をモデル化する。
我々は、全焦点パタンを用いて焦点スタック融合過程をガイドする新しいデュアルグラフモデルを構築した。
論文 参考訳(メタデータ) (2021-10-02T00:54:39Z) - Learning Gaussian Graphical Models with Latent Confounders [74.72998362041088]
我々は、グラフィカルモデルにおける推論のための2つの戦略を、潜伏した共同創設者と比較し、対比する。
これら2つのアプローチは、類似した目標を持っているが、それらは共起に関する異なる仮定によって動機付けられている。
これら2つのアプローチの強みを組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-14T00:53:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。