論文の概要: SADL: An Effective In-Context Learning Method for Compositional Visual QA
- arxiv url: http://arxiv.org/abs/2407.01983v1
- Date: Tue, 2 Jul 2024 06:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:34:10.844876
- Title: SADL: An Effective In-Context Learning Method for Compositional Visual QA
- Title(参考訳): SADL: 構成的視覚的QAのための効果的な文脈内学習手法
- Authors: Long Hoang Dang, Thao Minh Le, Vuong Le, Tu Minh Phuong, Truyen Tran,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、ビジュアルQAでコンテキスト内学習(ICL)を実行するための新しい機能を提供する。
本稿では,タスクのための新しい視覚言語プロンプトフレームワークであるSADLを紹介する。
- 参考スコア(独自算出の注目度): 22.0603596548686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) offer a novel capability for performing in-context learning (ICL) in Visual QA. When prompted with a few demonstrations of image-question-answer triplets, LVLMs have demonstrated the ability to discern underlying patterns and transfer this latent knowledge to answer new questions about unseen images without the need for expensive supervised fine-tuning. However, designing effective vision-language prompts, especially for compositional questions, remains poorly understood. Adapting language-only ICL techniques may not necessarily work because we need to bridge the visual-linguistic semantic gap: Symbolic concepts must be grounded in visual content, which does not share the syntactic linguistic structures. This paper introduces SADL, a new visual-linguistic prompting framework for the task. SADL revolves around three key components: SAmpling, Deliberation, and Pseudo-Labeling of image-question pairs. Given an image-question query, we sample image-question pairs from the training data that are in semantic proximity to the query. To address the compositional nature of questions, the deliberation step decomposes complex questions into a sequence of subquestions. Finally, the sequence is progressively annotated one subquestion at a time to generate a sequence of pseudo-labels. We investigate the behaviors of SADL under OpenFlamingo on large-scale Visual QA datasets, namely GQA, GQA-OOD, CLEVR, and CRIC. The evaluation demonstrates the critical roles of sampling in the neighborhood of the image, the decomposition of complex questions, and the accurate pairing of the subquestions and labels. These findings do not always align with those found in language-only ICL, suggesting fresh insights in vision-language settings.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、ビジュアルQAでコンテキスト内学習(ICL)を実行するための新しい機能を提供する。
LVLMは画像探索・回答三重項のデモを数回行ったところ、そのパターンを識別し、この潜伏した知識を伝達して、高価な監督された微調整を必要とせずに、目に見えない画像に関する新しい疑問に答える能力を示した。
しかし、効果的な視覚言語プロンプトの設計、特に構成問題については、いまだに理解されていない。
言語のみのICL技術への適応は、視覚言語的な意味的ギャップを埋める必要があるため、必ずしも機能しないかもしれない: 象徴的な概念は、統語的言語構造を共有しない視覚的内容に基礎を置く必要がある。
本稿では,タスクのための新しい視覚言語プロンプトフレームワークであるSADLを紹介する。
SADLは、SAmpling、Deliberation、Pseudo-Labelingの3つの重要なコンポーネントを中心に展開されている。
画像検索クエリが与えられた場合、クエリにセマンティックに近接するトレーニングデータから画像検索ペアをサンプリングする。
質問の構成的性質に対処するために、議論は複雑な質問を一連のサブクエストに分解する。
最後に、シークエンスを1つのサブクエストに段階的に注釈付けし、擬似ラベルのシーケンスを生成する。
大規模ビジュアルQAデータセット(GQA, GQA-OOD, CLEVR, CRIC)のOpenFlamingoにおけるSADLの挙動について検討した。
評価は,画像近傍でのサンプリング,複雑な質問の分解,サブクエストとラベルの正確なペアリングにおける重要な役割を示す。
これらの発見は、言語のみのICLに見られるものと必ずしも一致せず、視覚言語設定に対する新たな洞察を示唆している。
関連論文リスト
- SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。
SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。
高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文 参考訳(メタデータ) (2024-03-17T18:42:38Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Self-supervised Contrastive Cross-Modality Representation Learning for
Spoken Question Answering [29.545937716796082]
音声質問応答 (SQA) は、音声文書と質問の両方をきめ細かな理解を必要とする。
本稿では,自己指導型学習段階とコントラッシブな表現学習段階を併用した音声質問応答のための新しい学習手法を提案する。
本モデルでは,3つのSQAベンチマークの最先端結果が得られた。
論文 参考訳(メタデータ) (2021-09-08T01:13:14Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。