Fugu-MT 論文翻訳(概要): Integrating Query-aware Segmentation and Cross-Attention for Robust VQA

論文の概要: Integrating Query-aware Segmentation and Cross-Attention for Robust VQA

arxiv url: http://arxiv.org/abs/2407.12055v1
Date: Tue, 9 Jul 2024 04:48:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 09:07:34.110654
Title: Integrating Query-aware Segmentation and Cross-Attention for Robust VQA
Title（参考訳）: ロバストVQAのためのクエリ認識セグメンテーションとクロスアテンションの統合
Authors: Wonjun Choi, Sangbeom Lee, Seungyeon Lee, Heechul Jung, Dong-Gyu Lee,
Abstract要約: トレーニング可能なクロスアテンションとLoRAファインタニングを備えたLVLMを用いたVizWiz-VQA法を提案する。実験では,提案手法の有効性を実証し,解析する。
参考スコア（独自算出の注目度）: 5.877562239530764
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a method for VizWiz-VQA using LVLM with trainable cross-attention and LoRA finetuning. We train the model with the following conditions: 1) Training with original images. 2) Training with enhanced images using CLIPSeg to highlight or contrast the original image. 3) Training with integrating the output features of Vision Transformer (ViT) and CLIPSeg features of the original images. Then, we ensemble the results based on Levenshtein distance to enhance the prediction of the final answer. In the experiments, we demonstrate and analyze the proposed method's effectiveness.
Abstract（参考訳）: 本稿では,LVLMを用いたVizWiz-VQA法を提案する。私たちは以下の条件でモデルをトレーニングします。 1)オリジナル画像によるトレーニング。 2)CLIPSegを用いた強調画像によるトレーニングにより,画像の強調や対比を行う。 3)視覚変換器(ViT)の出力機能とオリジナル画像のCLIPSeg機能を統合したトレーニング。そして,レベンシュテイン距離に基づいて結果をアンサンブルし,最終回答の予測を強化する。実験では,提案手法の有効性を実証し,解析する。

関連論文リスト

CURVE: CLIP-Utilized Reinforcement Learning for Visual Image Enhancement via Simple Image Processing [0.5803309695504829]
低光画像強調(LLIE)は、人間の知覚とコンピュータビジョンの両方を改善するために重要である。本稿では、ゼロ参照LLIEにおける2つの課題として、知覚的に「良い」画像を取得し、高解像度画像の計算効率を維持することを挙げる。私たちはCLIPを利用した強化学習に基づく視覚強調(CURVE)を提案する。
論文参考訳（メタデータ） (2025-05-29T05:09:13Z)
Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning [49.275450836604726]
本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。我々は、知識蒸留によって強化された2ブランチのフレームワークを使用し、モデルがフィルタされた画像と原画像の両方を入力として取り込むことを可能にする。
論文参考訳（メタデータ） (2024-09-16T15:10:07Z)
Rethinking Visual Content Refinement in Low-Shot CLIP Adaptation [31.023236232633213]
近年の適応は、コントラストビジョン・ランゲージ事前訓練の低ショット能力を高めることができる。本稿では,テスト段階の適応計算に先立って,視覚的コンテンツリファインメント(VCR)を提案する。提案手法を,13のデータセットを持つ3つの一般的なローショットベンチマークタスクに適用し,最先端の手法よりも大幅に改善した。
論文参考訳（メタデータ） (2024-07-19T08:34:23Z)
Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。両領域間のギャップを狭める効果的なアプローチを提案する。主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文参考訳（メタデータ） (2024-06-17T13:49:12Z)
Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。 LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文参考訳（メタデータ） (2023-12-28T18:59:55Z)
Composed Image Retrieval using Contrastive Learning and Task-oriented CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文参考訳（メタデータ） (2023-08-22T15:03:16Z)
Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文参考訳（メタデータ） (2023-03-30T17:37:14Z)
VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文参考訳（メタデータ） (2022-06-02T16:14:19Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文参考訳（メタデータ） (2021-06-03T12:50:26Z)
IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。 IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文参考訳（メタデータ） (2021-04-13T02:00:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。