論文の概要: Distraction-free Embeddings for Robust VQA
- arxiv url: http://arxiv.org/abs/2309.00133v1
- Date: Thu, 31 Aug 2023 21:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 15:23:37.048598
- Title: Distraction-free Embeddings for Robust VQA
- Title(参考訳): ロバストVQA用ディストラクションフリー埋め込み
- Authors: Atharvan Dogra, Deeksha Varshney, Ashwin Kalyan, Ameet Deshpande,
Neeraj Kumar
- Abstract要約: DRAX: Distraction removal and Attended Cross-Alignment" 法を提案する。
各種モーダルからの入力情報の認識を排他的に限定するのではなく、注意誘導型注意誘導除去法を用いて、潜伏埋め込みにおけるタスク関連情報への注目を高める。
- 参考スコア(独自算出の注目度): 26.668415583548853
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The generation of effective latent representations and their subsequent
refinement to incorporate precise information is an essential prerequisite for
Vision-Language Understanding (VLU) tasks such as Video Question Answering
(VQA). However, most existing methods for VLU focus on sparsely sampling or
fine-graining the input information (e.g., sampling a sparse set of frames or
text tokens), or adding external knowledge. We present a novel "DRAX:
Distraction Removal and Attended Cross-Alignment" method to rid our cross-modal
representations of distractors in the latent space. We do not exclusively
confine the perception of any input information from various modalities but
instead use an attention-guided distraction removal method to increase focus on
task-relevant information in latent embeddings. DRAX also ensures semantic
alignment of embeddings during cross-modal fusions. We evaluate our approach on
a challenging benchmark (SUTD-TrafficQA dataset), testing the framework's
abilities for feature and event queries, temporal relation understanding,
forecasting, hypothesis, and causal analysis through extensive experiments.
- Abstract(参考訳): 映像質問応答(VQA)のような視覚言語理解(VLU)タスクには,効果的な潜伏表現の生成と,それに続く精密情報の統合による改善が不可欠である。
しかしながら、VLUの既存のほとんどの方法は、入力情報(例えば、フレームやテキストトークンのスパース集合をサンプリングする)のスパースサンプリングや微粒化、あるいは外部知識の追加に焦点を当てている。
我々は, 潜在空間における注意散逸のクロスモーダル表現を除去すべく, 新たな"drax: distraction removal and attended cross-alignment"法を提案する。
我々は,様々なモダリティからの入力情報の知覚を専ら限定するのではなく,注意誘導の注意喚起除去手法を用いて潜在埋め込みにおけるタスク関連情報への注目度を高める。
DRAXはまた、クロスモーダル融合中の埋め込みのセマンティックアライメントを保証する。
我々は,課題のあるベンチマーク(SUTD-TrafficQAデータセット)に対するアプローチを評価し,機能およびイベントクエリ,時間的関係理解,予測,仮説,因果解析などのフレームワークの能力を検証する。
関連論文リスト
- Why context matters in VQA and Reasoning: Semantic interventions for VLM input modalities [18.859309032300402]
画像とテキストのモダリティからの情報の統合が視覚言語モデル(VLM)予測の性能と振舞いに与える影響について検討する。
本稿では,VQAタスクの解決に視覚的内容が不可欠である様々な構成において,テキストと画像のモダリティの相互作用について検討する。
この結果から,モダリティ間の相補的な情報によって解答や推論の質が向上し,矛盾する情報がモデルの性能や信頼性を損なうことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T16:02:02Z) - What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation [16.033361754660316]
視覚言語モデル(VLM)における可読性評価パイプライン
SVO-Probes、MIT-States、Facial Expression Recognitionデータセットに関する実験により、VLM意思決定における重要な洞察が明らかになった。
この研究は、より透明で解釈可能なマルチモーダルシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-24T05:13:19Z) - X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。
視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。
X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-05-29T17:59:58Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer [53.413305467674434]
スパイク深度推定をサポートするためにオープンソースのRGBデータを導入し,そのアノテーションと空間情報を活用する。
教師なしスパイク深さ推定を実現するために,クロスモーダルクロスドメイン(BiCross)フレームワークを提案する。
提案手法は,RGB指向の教師なし深度推定法と比較して,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-08-26T09:35:20Z) - Weakly Supervised Video Salient Object Detection via Point Supervision [18.952253968878356]
本稿では,点監督に基づく強力なベースラインモデルを提案する。
経時的情報でサリエンシマップを推定するために, 短期・長期の観点から, フレーム間補完情報を抽出する。
DAVISとDAVSODデータセットを緩和することにより、P-DAVISとP-DAVSODの2つの点教師付きデータセットをラベル付けする。
論文 参考訳(メタデータ) (2022-07-15T03:31:15Z) - Decoupled Side Information Fusion for Sequential Recommendation [6.515279047538104]
シーケンスレコメンデーションのためのデカップリングサイド情報融合(DIF-SR)を提案する。
入力から注目層に側情報を移動し、様々な側情報の注意計算とアイテム表現を分離する。
提案手法は現状のSRモデルより安定して優れている。
論文 参考訳(メタデータ) (2022-04-23T10:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。