論文の概要: Evaluation and Enhancement of Semantic Grounding in Large
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2309.04041v2
- Date: Sat, 13 Jan 2024 03:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 01:47:57.671189
- Title: Evaluation and Enhancement of Semantic Grounding in Large
Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルにおける意味的接地の評価と強化
- Authors: Jiaying Lu, Jinmeng Rao, Kezhen Chen, Xiaoyuan Guo, Yawen Zhang,
Baochen Sun, Carl Yang and Jie Yang
- Abstract要約: LVLM(Large Vision-Language Models)は、様々な視覚言語タスクに顕著な利点をもたらす。
制約付きセマンティックグラウンド機能は、現実のシナリオにおけるアプリケーションの障害となる。
LVLMのセマンティックグラウンド機能を改善することを目的とした,データ中心の強化手法を提案する。
- 参考スコア(独自算出の注目度): 25.413601452403213
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Vision-Language Models (LVLMs) offer remarkable benefits for a variety
of vision-language tasks. However, a challenge hindering their application in
real-world scenarios, particularly regarding safety, robustness, and
reliability, is their constrained semantic grounding ability, which pertains to
connecting language to the physical-world entities or concepts referenced in
images. Therefore, a crucial need arises for a comprehensive study to assess
the semantic grounding ability of widely used LVLMs. Despite the significance,
sufficient investigation in this direction is currently lacking. Our work
bridges this gap by designing a pipeline for generating large-scale evaluation
datasets covering fine-grained semantic information, such as color, number,
material, etc., along with a thorough assessment of seven popular LVLMs'
semantic grounding ability. Results highlight prevalent misgrounding across
various aspects and degrees. To address this issue, we propose a data-centric
enhancement method that aims to improve LVLMs' semantic grounding ability
through multimodal instruction tuning on fine-grained conversations.
Experiments on enhanced LVLMs demonstrate notable improvements in addressing
misgrounding issues.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々な視覚言語タスクに顕著な利点をもたらす。
しかし、特に安全性、堅牢性、信頼性に関する現実のシナリオにおける彼らの応用を妨げる課題は、言語を物理的世界の実体やイメージに参照される概念に結びつけることに関連する制約付きセマンティック基盤能力である。
したがって、広く使用されているLVLMのセマンティックグラウンドディング能力を評価するための総合的な研究において、重要なニーズが生じる。
その重要性にもかかわらず、この方向の十分な調査は現在不足している。
我々の研究は、色、数、材料などの詳細な意味情報を含む大規模評価データセットを生成するパイプラインを設計し、7つの人気のあるlvlmのセマンティクス接地能力の徹底的な評価を行うことで、このギャップを埋める。
結果は、さまざまな側面や程度にまたがる一般的な誤解を浮き彫りにする。
本稿では,きめ細かな会話に対するマルチモーダル命令チューニングにより,lvlmsの意味的接地能力を向上させることを目的とした,データ中心の強化手法を提案する。
改良型LVLM実験は, 誤動作問題に対する顕著な改善を示した。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - Mitigating Object Hallucination in Large Vision-Language Models via
Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。
私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。
MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - OmDet: Large-scale vision-language multi-dataset pre-training with
multimodal detection network [17.980765138522322]
この研究は、新しい言語対応のオブジェクト検出アーキテクチャであるOmDetを紹介した。
自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから"視覚語彙"を蓄積する。
我々は,OmDetが野生におけるオブジェクト検出,オープンボキャブラリ検出,句接地において,強いベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-10T14:25:14Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。