Fugu-MT 論文翻訳(概要): Enhancing Large Vision Language Models with Self-Training on Image Comprehension

論文の概要: Enhancing Large Vision Language Models with Self-Training on Image Comprehension

arxiv url: http://arxiv.org/abs/2405.19716v2
Date: Sun, 24 Nov 2024 03:47:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.030886
Title: Enhancing Large Vision Language Models with Self-Training on Image Comprehension
Title（参考訳）: 画像理解に基づく自己学習による大規模視覚言語モデルの強化
Authors: Yihe Deng, Pan Lu, Fan Yin, Ziniu Hu, Sheng Shen, Quanquan Gu, James Zou, Kai-Wei Chang, Wei Wang,
Abstract要約: 本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
参考スコア（独自算出の注目度）: 131.14381425260706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large vision language models (LVLMs) integrate large language models (LLMs) with pre-trained vision encoders, thereby activating the perception capability of the model to understand image inputs for different queries and conduct subsequent reasoning. Improving this capability requires high-quality vision-language data, which is costly and labor-intensive to acquire. Self-training approaches have been effective in single-modal settings to alleviate the need for labeled data by leveraging model's own generation. However, effective self-training remains a challenge regarding the unique visual perception and reasoning capability of LVLMs. To address this, we introduce Self-Training on Image Comprehension (STIC), which emphasizes a self-training approach specifically for image comprehension. First, the model self-constructs a preference dataset for image descriptions using unlabeled images. Preferred responses are generated through a step-by-step prompt, while dis-preferred responses are generated from either corrupted images or misleading prompts. To further self-improve reasoning on the extracted visual information, we let the model reuse a small portion of existing instruction-tuning data and append its self-generated image descriptions to the prompts. We validate the effectiveness of STIC across seven different benchmarks, demonstrating substantial performance gains of 4.0% on average while using 70% less supervised fine-tuning data than the current method. Further studies investigate various components of STIC and highlight its potential to leverage vast quantities of unlabeled images for self-training. Code and data are made publicly available.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)は、大規模言語モデル(LLM)と事前訓練された視覚エンコーダを統合し、異なるクエリに対する画像入力を理解し、その後の推論を実行するためにモデルの知覚能力を活性化する。この能力を改善するには、高品質の視覚言語データが必要です。自己学習アプローチは、モデル自身の世代を活用してラベル付きデータの必要性を軽減するために、単一モード設定で有効である。しかし、LVLMのユニークな視覚知覚と推論能力に関して、効果的な自己学習は依然として課題である。そこで本稿では,画像理解のための自己学習手法であるSTIC(Self-Training on Image Comprehension)を紹介する。まず、ラベルなし画像を用いた画像記述のための嗜好データセットを自己構築する。優先応答はステップバイステッププロンプトを介して生成され、非優先応答は、破損した画像または誤解を招くプロンプトから生成される。抽出した視覚情報に基づく推論をさらに自己改善するために、既存の命令チューニングデータのごく一部を再利用し、その自己生成画像記述をプロンプトに付加する。本研究では,7つのベンチマークにおいてSTICの有効性を検証し,従来の手法よりも70%少ない教師付き微調整データを用いて,平均4.0%の性能向上を示した。さらに、STICの様々なコンポーネントについて検討し、ラベルのない大量の画像を自己学習に活用する可能性を強調した。コードとデータは公開されています。

関連論文リスト

No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning [0.0]
視覚言語モデル(VLM)と、事前学習された視覚モデルを用いた伝達学習は、この問題に対処するための有望な手法として現れる。本稿では,VLMと事前学習した視覚モデルを組み合わせたゼロショット画像分類フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-23T12:54:52Z)
Iterative Self-Improvement of Vision Language Models for Image Scoring and Self-Explanation [26.186038156155522]
本稿では,視覚言語モデル(VLM)の新たなトレーニング手法を提案する。本手法は,外部データやモデルに頼らずに,VLMの生成したテキストを利用した自己学習を可能にする。
論文参考訳（メタデータ） (2025-06-03T10:04:19Z)
Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [55.42794740244581]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文参考訳（メタデータ） (2025-05-22T15:05:07Z)
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文参考訳（メタデータ） (2025-03-26T16:05:01Z)
BREEN: Bridge Data-Efficient Encoder-Free Multimodal Learning with Learnable Queries [37.37905881898424]
マルチモーダル大言語モデル(MLLM)は、言語モデルの前に画像トークンを直接処理することで、よく訓練された視覚エンコーダの必要性をなくす。視覚エンコーダが存在しないことは、モデルが必要な視覚的・意味的なアライメントを学習するために、かなりのデータに依存する可能性が高いことを示唆している。この問題を緩和するデータ効率のよいエンコーダフリーマルチモーダルアーキテクチャであるBREENを提案する。
論文参考訳（メタデータ） (2025-03-16T10:43:14Z)
Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文参考訳（メタデータ） (2025-02-27T09:37:30Z)
Beyond-Labels: Advancing Open-Vocabulary Segmentation With Vision-Language Models [0.0]
自己教師付き学習は、効果的に訓練された場合、多数の画像や言語処理の問題を解決することができる。本研究では, セマンティックセグメンテーションタスクに対して, 以前に学習した基礎モデルを適用するための簡易かつ効率的な手法について検討した。本研究は,少数の画像分割データを用いて,凍結画像表現と言語概念を融合する軽量トランスフォーマーベース融合モジュールであるBeyond-Labelsを提案する。
論文参考訳（メタデータ） (2025-01-28T07:49:52Z)
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。 CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文参考訳（メタデータ） (2024-10-12T06:24:33Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。 SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。 LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T14:30:33Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文参考訳（メタデータ） (2023-06-01T14:02:45Z)
Learning Transferable Pedestrian Representation from Multimodal Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文参考訳（メタデータ） (2023-04-12T01:20:58Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
TOV: The Original Vision Model for Optical Remote Sensing Image Understanding via Self-supervised Learning [13.57667361338603]
リモートセンシングにおけるtextbfOriginal textbfVision Model (TOV) を提案する。人のような自己教師付き学習経路に沿って、巨大なラベルのない光学データによって訓練されたTOVモデルは、様々なRSIUタスクに容易に適応できる。 RSIUのTOVモデル構築における2つの要因の影響を分析する。
論文参考訳（メタデータ） (2022-04-10T16:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。