Fugu-MT 論文翻訳(概要): Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement

論文の概要: Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement

arxiv url: http://arxiv.org/abs/2405.15973v2
Date: Wed, 29 May 2024 22:07:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 20:05:24.786513
Title: Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement
Title（参考訳）: 自己改善による大規模視覚言語モデルにおける視覚言語モダリティアライメントの強化
Authors: Xiyao Wang, Jiuhai Chen, Zhaoyang Wang, Yuhang Zhou, Yiyang Zhou, Huaxiu Yao, Tianyi Zhou, Tom Goldstein, Parminder Bhatia, Furong Huang, Cao Xiao,
Abstract要約: SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。 SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
参考スコア（独自算出の注目度）: 102.22911097049953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large vision-language models (LVLMs) have achieved impressive results in various visual question-answering and reasoning tasks through vision instruction tuning on specific datasets. However, there is still significant room for improvement in the alignment between visual and language modalities. Previous methods to enhance this alignment typically require external models or data, heavily depending on their capabilities and quality, which inevitably sets an upper bound on performance. In this paper, we propose SIMA, a framework that enhances visual and language modality alignment through self-improvement, eliminating the needs for external models or data. SIMA leverages prompts from existing vision instruction tuning datasets to self-generate responses and employs an in-context self-critic mechanism to select response pairs for preference tuning. The key innovation is the introduction of three vision metrics during the in-context self-critic process, which can guide the LVLM in selecting responses that enhance image comprehension. Through experiments across 14 hallucination and comprehensive benchmarks, we demonstrate that SIMA not only improves model performance across all benchmarks but also achieves superior modality alignment, outperforming previous approaches.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)は、特定のデータセットに対する視覚指導による様々な視覚的質問応答および推論タスクにおいて印象的な結果を得た。しかし、視覚的モダリティと言語的モダリティの整合性を改善する余地は依然として大きい。このアライメントを強化するには、通常、その能力と品質に大きく依存する外部モデルやデータが必要である。本稿では,自己改善による視覚的・言語的モダリティの整合性を向上し,外部モデルやデータの必要性を解消するフレームワークであるSIMAを提案する。 SIMAは、既存のビジョンインストラクションチューニングデータセットからのプロンプトを活用して、自己生成応答を生成し、コンテキスト内自己批判機構を使用して、優先順位調整のためのレスポンスペアを選択する。重要なイノベーションは、コンテキスト内自己批判プロセス中に3つの視覚メトリクスを導入し、画像の理解を深める応答の選択においてLVLMを導くことである。 14の幻覚と総合的なベンチマークの実験を通して、SIMAは全てのベンチマークでモデル性能を向上するだけでなく、過去のアプローチよりも優れたモダリティアライメントを実現することを示した。

関連論文リスト

VIS-Shepherd: Constructing Critic for LLM-based Data Visualization Generation [17.6462454905092]
MLLM(Multimodal Large Language Model)をベースとした評価モデルであるVIS-Shepherdを紹介する。当社のアプローチの核心は、高品質な可視化基準データセットを構築するためのフレームワークです。実験の結果,オープンソースMLLMモデルでは,小型(7Bパラメータ)のMLLMモデルでも大幅な性能向上が得られた。
論文参考訳（メタデータ） (2025-06-16T10:15:38Z)
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [19.37373012848517]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文参考訳（メタデータ） (2025-02-18T18:59:57Z)
Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。 SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文参考訳（メタデータ） (2024-10-12T07:56:47Z)
Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks [43.96835245022083]
モデルにアウトプットを洗練させる自己補正は、この問題に対する有望な解決策である。本研究では,視覚言語モデルの推論および微調整段階における自己補正能力について検討した。
論文参考訳（メタデータ） (2024-10-05T06:28:54Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。 LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T14:30:33Z)
SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。 SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文参考訳（メタデータ） (2024-03-17T18:42:38Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。 20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文参考訳（メタデータ） (2022-04-19T10:23:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。