Fugu-MT 論文翻訳(概要): Evaluation and Enhancement of Semantic Grounding in Large Vision-Language Models

論文の概要: Evaluation and Enhancement of Semantic Grounding in Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2309.04041v2
Date: Sat, 13 Jan 2024 03:02:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 01:47:57.671189
Title: Evaluation and Enhancement of Semantic Grounding in Large Vision-Language Models
Title（参考訳）: 大規模視覚言語モデルにおける意味的接地の評価と強化
Authors: Jiaying Lu, Jinmeng Rao, Kezhen Chen, Xiaoyuan Guo, Yawen Zhang, Baochen Sun, Carl Yang and Jie Yang
Abstract要約: LVLM(Large Vision-Language Models)は、様々な視覚言語タスクに顕著な利点をもたらす。制約付きセマンティックグラウンド機能は、現実のシナリオにおけるアプリケーションの障害となる。 LVLMのセマンティックグラウンド機能を改善することを目的とした,データ中心の強化手法を提案する。
参考スコア（独自算出の注目度）: 25.413601452403213
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Vision-Language Models (LVLMs) offer remarkable benefits for a variety of vision-language tasks. However, a challenge hindering their application in real-world scenarios, particularly regarding safety, robustness, and reliability, is their constrained semantic grounding ability, which pertains to connecting language to the physical-world entities or concepts referenced in images. Therefore, a crucial need arises for a comprehensive study to assess the semantic grounding ability of widely used LVLMs. Despite the significance, sufficient investigation in this direction is currently lacking. Our work bridges this gap by designing a pipeline for generating large-scale evaluation datasets covering fine-grained semantic information, such as color, number, material, etc., along with a thorough assessment of seven popular LVLMs' semantic grounding ability. Results highlight prevalent misgrounding across various aspects and degrees. To address this issue, we propose a data-centric enhancement method that aims to improve LVLMs' semantic grounding ability through multimodal instruction tuning on fine-grained conversations. Experiments on enhanced LVLMs demonstrate notable improvements in addressing misgrounding issues.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は、様々な視覚言語タスクに顕著な利点をもたらす。しかし、特に安全性、堅牢性、信頼性に関する現実のシナリオにおける彼らの応用を妨げる課題は、言語を物理的世界の実体やイメージに参照される概念に結びつけることに関連する制約付きセマンティック基盤能力である。したがって、広く使用されているLVLMのセマンティックグラウンドディング能力を評価するための総合的な研究において、重要なニーズが生じる。その重要性にもかかわらず、この方向の十分な調査は現在不足している。我々の研究は、色、数、材料などの詳細な意味情報を含む大規模評価データセットを生成するパイプラインを設計し、7つの人気のあるlvlmのセマンティクス接地能力の徹底的な評価を行うことで、このギャップを埋める。結果は、さまざまな側面や程度にまたがる一般的な誤解を浮き彫りにする。本稿では,きめ細かな会話に対するマルチモーダル命令チューニングにより,lvlmsの意味的接地能力を向上させることを目的とした,データ中心の強化手法を提案する。改良型LVLM実験は, 誤動作問題に対する顕著な改善を示した。

関連論文リスト

Blind Spot Navigation: Evolutionary Discovery of Sensitive Semantic Concepts for LVLMs [24.76767896607915]
最近の研究では、モデルは視覚入力の特定の意味に特に敏感であり、エラーを起こしやすいことが示唆されている。そこで本研究では,大規模視覚言語モデル(LVLM)の最初の探索を行った。画像中の特定の意味概念に直面すると,LVLMは幻覚や様々な誤りの影響を受けることが判明した。
論文参考訳（メタデータ） (2025-05-21T08:45:43Z)
Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-04-21T09:30:41Z)
Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [10.792834356227118]
VLM(Vision-Language Models)は、オブジェクトの識別と記述が優れているが、空間的推論に苦慮している。人間の視覚のデュアルパスウェイモデルに触発されて,強い物体認識能力にもかかわらず,VLMが空間的タスクに失敗する理由を考察した。
論文参考訳（メタデータ） (2025-03-21T17:51:14Z)
Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。 GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文参考訳（メタデータ） (2025-03-17T04:07:47Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文参考訳（メタデータ） (2024-07-17T11:26:47Z)
GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文参考訳（メタデータ） (2024-06-19T06:15:26Z)
Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。 MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文参考訳（メタデータ） (2024-02-13T18:59:05Z)
From Understanding to Utilization: A Survey on Explainability for Large Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文参考訳（メタデータ） (2024-01-23T16:09:53Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
OmDet: Large-scale vision-language multi-dataset pre-training with multimodal detection network [17.980765138522322]
この研究は、新しい言語対応のオブジェクト検出アーキテクチャであるOmDetを紹介した。自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから"視覚語彙"を蓄積する。我々は,OmDetが野生におけるオブジェクト検出,オープンボキャブラリ検出,句接地において,強いベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2022-09-10T14:25:14Z)
Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文参考訳（メタデータ） (2022-03-16T11:06:50Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。