Fugu-MT 論文翻訳(概要): SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant

論文の概要: SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant

arxiv url: http://arxiv.org/abs/2403.11299v1
Date: Sun, 17 Mar 2024 18:42:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 17:36:46.803436
Title: SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant
Title（参考訳）: SQ-LLaVA:大規模視覚言語支援のためのセルフクエスト
Authors: Guohao Sun, Can Qin, Jiamian Wang, Zeyuan Chen, Ran Xu, Zhiqiang Tao,
Abstract要約: 本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。 SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。高品質な命令データに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して一貫した性能向上を示す。
参考スコア（独自算出の注目度）: 48.220285886328746
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in the vision-language model have shown notable generalization in vision-language tasks after visual instruction tuning. However, bridging the gap between the pre-trained vision encoder and the large language models becomes the whole network's bottleneck. To improve cross-modality alignment, existing works usually consider more visual instruction data covering a broader range of vision tasks to fine-tune the model for question-answering, which are costly to obtain. However, the image contains rich contextual information that has been largely under-explored. This paper first attempts to harness this overlooked context within visual instruction data, training the model to self-supervised `learning' how to ask high-quality questions. In this way, we introduce a novel framework named SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant. SQ-LLaVA exhibits proficiency in generating flexible and meaningful image-related questions while analyzing the visual clue and prior language knowledge, signifying an advanced level of generalized visual understanding. Moreover, fine-tuning SQ-LLaVA on higher-quality instruction data shows a consistent performance improvement compared with traditional visual-instruction tuning methods. This improvement highlights the efficacy of self-questioning techniques in achieving a deeper and more nuanced comprehension of visual content across various contexts.
Abstract（参考訳）: 近年の視覚言語モデルの進歩は、視覚指導訓練後の視覚言語タスクの顕著な一般化を示している。しかし、事前訓練されたビジョンエンコーダと大きな言語モデルとのギャップを埋めることは、ネットワーク全体のボトルネックとなる。クロスモーダルアライメントを改善するため、既存の研究は通常、より広い範囲の視覚タスクをカバーする視覚的インストラクションデータを考慮し、質問応答のためのモデルを微調整する。しかし、この画像は、ほとんど探索されていない豊富な文脈情報を含んでいる。本稿ではまず,視覚的指導データの中で,この見過ごされた文脈を利用して,高品質な質問を自己指導する「学習」を訓練する。本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。 SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示し、より高度な一般化された視覚的理解のレベルを示す。さらに、高品質な命令データに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して一貫した性能向上を示す。この改善は、様々な文脈における視覚的内容のより深く、よりニュアンスな理解を達成するための、セルフクエスト技術の有効性を強調している。

関連論文リスト

VoQA: Visual-only Question Answering [7.251596370310251]
本稿では,視覚のみの質問回答(VoQA)を提案する。これは、視覚的に埋め込まれたテキストの質問を見つけ、認識し、推論するモデルを必要とする。 GRT-SFT(Guid Response Triggering Supervised Fine-tuning)は,視覚的入力に基づくステップバイステップ推論を行うための構造的微調整戦略である。
論文参考訳（メタデータ） (2025-05-20T11:37:49Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。 SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Improving In-Context Learning in Diffusion Models with Visual Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。 iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文参考訳（メタデータ） (2023-12-03T14:15:52Z)
What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。 GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文参考訳（メタデータ） (2023-05-20T16:11:26Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文参考訳（メタデータ） (2022-11-10T21:44:33Z)
VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。 VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文参考訳（メタデータ） (2022-08-19T14:39:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。