Fugu-MT 論文翻訳(概要): Distraction-free Embeddings for Robust VQA

論文の概要: Distraction-free Embeddings for Robust VQA

arxiv url: http://arxiv.org/abs/2309.00133v1
Date: Thu, 31 Aug 2023 21:02:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-04 15:23:37.048598
Title: Distraction-free Embeddings for Robust VQA
Title（参考訳）: ロバストVQA用ディストラクションフリー埋め込み
Authors: Atharvan Dogra, Deeksha Varshney, Ashwin Kalyan, Ameet Deshpande, Neeraj Kumar
Abstract要約: DRAX: Distraction removal and Attended Cross-Alignment" 法を提案する。各種モーダルからの入力情報の認識を排他的に限定するのではなく、注意誘導型注意誘導除去法を用いて、潜伏埋め込みにおけるタスク関連情報への注目を高める。
参考スコア（独自算出の注目度）: 26.668415583548853
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The generation of effective latent representations and their subsequent refinement to incorporate precise information is an essential prerequisite for Vision-Language Understanding (VLU) tasks such as Video Question Answering (VQA). However, most existing methods for VLU focus on sparsely sampling or fine-graining the input information (e.g., sampling a sparse set of frames or text tokens), or adding external knowledge. We present a novel "DRAX: Distraction Removal and Attended Cross-Alignment" method to rid our cross-modal representations of distractors in the latent space. We do not exclusively confine the perception of any input information from various modalities but instead use an attention-guided distraction removal method to increase focus on task-relevant information in latent embeddings. DRAX also ensures semantic alignment of embeddings during cross-modal fusions. We evaluate our approach on a challenging benchmark (SUTD-TrafficQA dataset), testing the framework's abilities for feature and event queries, temporal relation understanding, forecasting, hypothesis, and causal analysis through extensive experiments.
Abstract（参考訳）: 映像質問応答(VQA)のような視覚言語理解(VLU)タスクには,効果的な潜伏表現の生成と,それに続く精密情報の統合による改善が不可欠である。しかしながら、VLUの既存のほとんどの方法は、入力情報(例えば、フレームやテキストトークンのスパース集合をサンプリングする)のスパースサンプリングや微粒化、あるいは外部知識の追加に焦点を当てている。我々は, 潜在空間における注意散逸のクロスモーダル表現を除去すべく, 新たな"drax: distraction removal and attended cross-alignment"法を提案する。我々は,様々なモダリティからの入力情報の知覚を専ら限定するのではなく,注意誘導の注意喚起除去手法を用いて潜在埋め込みにおけるタスク関連情報への注目度を高める。 DRAXはまた、クロスモーダル融合中の埋め込みのセマンティックアライメントを保証する。我々は,課題のあるベンチマーク(SUTD-TrafficQAデータセット)に対するアプローチを評価し,機能およびイベントクエリ,時間的関係理解,予測,仮説,因果解析などのフレームワークの能力を検証する。

関連論文リスト

Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor [32.34399128209528]
本研究では,事前学習したテキスト・画像拡散モデルが,命令認識型ビジュアルエンコーダとして機能するかどうかを検討する。拡散機能はセマンティクスに富み、強い画像テキストアライメントを符号化できる。次に,これらの特徴と大規模言語モデルとの整合性について検討し,漏洩現象を明らかにする。
論文参考訳（メタデータ） (2025-07-09T17:59:47Z)
Do You Keep an Eye on What I Ask? Mitigating Multimodal Hallucination via Attention-Guided Ensemble Decoding [5.71478837100808]
LVLM(Large Vision-Language Models)は、存在しないオブジェクトや既存のオブジェクトを誤って含むことによって、視覚的コンテンツを不正確に反映する記述を生成する。本稿では,入力画像をサブイメージに分割し,アテンションマップを通じて重みを割り当てることでロジット分布を結合する新しい戦略であるEnsemble Decoding (ED)を提案する。提案手法は,提案手法の有効性を検証し,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-05-23T06:35:43Z)
Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption [65.06388526722186]
赤外線可視画像融合はコンピュータビジョンにおいて重要な課題である。この急成長する領域に対処する、最近の包括的な調査が欠如している。本稿では,共通学習に基づくIVIF手法の解明のための多次元フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-18T13:17:34Z)
SUMI-IFL: An Information-Theoretic Framework for Image Forgery Localization with Sufficiency and Minimality Constraints [66.85363924364628]
イメージフォージェリーローカライゼーション (IFL) は, 改ざん画像誤用を防止し, 社会安全を守るための重要な技術である。本稿では,情報理論IFL フレームワーク SUMI-IFL について紹介する。
論文参考訳（メタデータ） (2024-12-13T09:08:02Z)
Why context matters in VQA and Reasoning: Semantic interventions for VLM input modalities [18.859309032300402]
画像とテキストのモダリティからの情報の統合が視覚言語モデル(VLM)予測の性能と振舞いに与える影響について検討する。本稿では,VQAタスクの解決に視覚的内容が不可欠である様々な構成において,テキストと画像のモダリティの相互作用について検討する。この結果から,モダリティ間の相補的な情報によって解答や推論の質が向上し,矛盾する情報がモデルの性能や信頼性を損なうことが明らかとなった。
論文参考訳（メタデータ） (2024-10-02T16:02:02Z)
QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [66.01597794579568]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。 IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文参考訳（メタデータ） (2024-08-20T02:44:45Z)
What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation [16.033361754660316]
視覚言語モデル(VLM)における可読性評価パイプライン SVO-Probes、MIT-States、Facial Expression Recognitionデータセットに関する実験により、VLM意思決定における重要な洞察が明らかになった。この研究は、より透明で解釈可能なマルチモーダルシステムへの道を開いた。
論文参考訳（メタデータ） (2024-06-24T05:13:19Z)
X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。 X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文参考訳（メタデータ） (2024-05-29T17:59:58Z)
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文参考訳（メタデータ） (2023-10-17T02:38:09Z)
Improving Vision Anomaly Detection with the Guidance of Language Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文参考訳（メタデータ） (2023-10-04T13:44:56Z)
LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文参考訳（メタデータ） (2023-07-26T12:13:00Z)
Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文参考訳（メタデータ） (2023-05-12T00:13:17Z)
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文参考訳（メタデータ） (2022-09-14T22:04:10Z)
Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer [53.413305467674434]
スパイク深度推定をサポートするためにオープンソースのRGBデータを導入し,そのアノテーションと空間情報を活用する。教師なしスパイク深さ推定を実現するために,クロスモーダルクロスドメイン(BiCross)フレームワークを提案する。提案手法は,RGB指向の教師なし深度推定法と比較して,最先端(SOTA)性能を実現する。
論文参考訳（メタデータ） (2022-08-26T09:35:20Z)
Weakly Supervised Video Salient Object Detection via Point Supervision [18.952253968878356]
本稿では,点監督に基づく強力なベースラインモデルを提案する。経時的情報でサリエンシマップを推定するために, 短期・長期の観点から, フレーム間補完情報を抽出する。 DAVISとDAVSODデータセットを緩和することにより、P-DAVISとP-DAVSODの2つの点教師付きデータセットをラベル付けする。
論文参考訳（メタデータ） (2022-07-15T03:31:15Z)
Decoupled Side Information Fusion for Sequential Recommendation [6.515279047538104]
シーケンスレコメンデーションのためのデカップリングサイド情報融合(DIF-SR)を提案する。入力から注目層に側情報を移動し、様々な側情報の注意計算とアイテム表現を分離する。提案手法は現状のSRモデルより安定して優れている。
論文参考訳（メタデータ） (2022-04-23T10:53:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。