Fugu-MT 論文翻訳(概要): FiVL: A Framework for Improved Vision-Language Alignment through the Lens of Training, Evaluation and Explainability

論文の概要: FiVL: A Framework for Improved Vision-Language Alignment through the Lens of Training, Evaluation and Explainability

arxiv url: http://arxiv.org/abs/2412.14672v2
Date: Wed, 19 Mar 2025 12:04:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 19:58:13.162809
Title: FiVL: A Framework for Improved Vision-Language Alignment through the Lens of Training, Evaluation and Explainability
Title（参考訳）: FiVL: トレーニング, 評価, 説明可能性のレンズによる視覚言語アライメント改善のためのフレームワーク
Authors: Estelle Aflalo, Gabriela Ben Melech Stan, Tiep Le, Man Luo, Shachar Rosenman, Sayak Paul, Shao-Yen Tseng, Vasudev Lal,
Abstract要約: 本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。本稿では,モデルがイメージを実体的証拠として用いる能力を評価するためのベンチマークを示す。視覚による幻覚を説明できる最強の視覚言語アライメントで注目頭を特定する。
参考スコア（独自算出の注目度）: 10.184567639685321
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Vision Language Models (LVLMs) have achieved significant progress in integrating visual and textual inputs for multimodal reasoning. However, a recurring challenge is ensuring these models utilize visual information as effectively as linguistic content when both modalities are necessary to formulate an accurate answer. We hypothesize that hallucinations arise due to the lack of effective visual grounding in current LVLMs. Furthermore, current vision-language benchmarks are not specifically measuring the degree to which the answer require the visual input. This limitation makes it challenging to confirm that the image is truly necessary, particularly in tasks like visual question answering. In this work, we introduce FiVL, a novel method for constructing datasets designed to train LVLMs for enhanced visual grounding and also evaluate their effectiveness in achieving it. We demonstrate the value of our datasets through three approaches. First, we introduce a novel training task based on our augmented training dataset, resulting in better performance than the baseline. Second, we present benchmarks to assess the model's ability to use image as substantive evidence, rather than relying solely on linguistic priors. Finally, we identify attention heads with the strongest vision-language alignment, enabling explainability on visual-driven hallucinations. The code is available at https://github.com/IntelLabs/fivl.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)は、多モーダル推論のための視覚的およびテキスト的入力の統合において大きな進歩を遂げている。しかし、これらのモデルが正確な答えを定式化するために両方のモダリティが必要な場合、視覚情報を言語コンテンツと同じくらい効果的に活用することの繰り返しが課題である。我々は,現在のLVLMでは視覚的効果的な接地が欠如しているため,幻覚が生じるという仮説を立てた。さらに、現在の視覚言語ベンチマークは、その答えが視覚入力を必要とする程度を特に測定していない。この制限により、特に視覚的質問応答のようなタスクにおいて、画像が本当に必要なことを確認することは困難になる。本研究では,LVLMの学習用データセット構築のための新しい手法であるFiVLを紹介し,その有効性を評価する。データセットの価値を3つのアプローチで示す。まず、拡張トレーニングデータセットに基づく新しいトレーニングタスクを導入し、ベースラインよりも優れたパフォーマンスを実現した。第2に,言語的先行にのみ依存するのではなく,イメージを実体的証拠として活用するモデルの能力を評価するためのベンチマークを提案する。最後に,最も強い視覚言語アライメントで注目感を識別し,視覚による幻覚の説明可能性を実現する。コードはhttps://github.com/IntelLabs/fivl.comから入手できる。

関連論文リスト

Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文参考訳（メタデータ） (2025-02-19T18:05:42Z)
Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文参考訳（メタデータ） (2025-02-17T04:38:12Z)
Improving Fine-grained Visual Understanding in VLMs through Text-Only Training [0.0]
テキストのみの学習を通して視覚言語モデル(VLM)におけるきめ細かい視覚的理解を高める可能性について検討する。我々は2つの異なる領域、細粒度の種分類と文化的な視覚的理解タスクについて包括的な実験を行った。その結果,テキストのみのトレーニングは従来の画像テキスト学習に匹敵するが,計算コストは大幅に削減できることがわかった。
論文参考訳（メタデータ） (2024-12-17T14:18:50Z)
Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。 LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。 MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文参考訳（メタデータ） (2024-11-21T16:33:30Z)
A-VL: Adaptive Attention for Large Vision-Language Models [10.027871150748956]
LVLM(Large Vision-Language Model)は、コンピュータビジョンと自然言語処理技術を統合し、アプリケーションの可能性を高める。現在の適応アダプティブアテンション手法はトランスフォーマーベースの言語モデルのメモリ要求を大幅に削減する。我々は、LVLMがリモート画像トークンとローカルテキストトークンの両方から応答を生成し、異なるモダリティが異なる注意パターンを持つのを観察した。 LVLM推論に適したプラグアンドプレイ適応型アダプティブアテンションであるA-VLを開発した。
論文参考訳（メタデータ） (2024-09-23T09:22:59Z)
Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文参考訳（メタデータ） (2024-08-09T12:13:01Z)
Improving Visual Commonsense in Language Models via Multiple Image Generation [41.565399860320966]
既存の大規模言語モデル(LLM)は、主にテキストデータのみを使用して訓練されている。視覚言語モデルは視覚的に指向するタスクに優れており、基本的なコモンセンス推論のような視覚的でないタスクでは失敗することが多い。この分散は、基本的なテキストベースの言語推論と堅牢な視覚的理解の統合という、重要な課題を浮き彫りにする。
論文参考訳（メタデータ） (2024-06-19T15:17:10Z)
VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文参考訳（メタデータ） (2023-12-12T18:58:18Z)
Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。 QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文参考訳（メタデータ） (2023-12-04T03:18:51Z)
See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。 IPVRには3つのステージがある。我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文参考訳（メタデータ） (2023-01-12T18:59:50Z)
DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。 DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-10-28T23:00:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。