論文の概要: Expand VSR Benchmark for VLLM to Expertize in Spatial Rules
- arxiv url: http://arxiv.org/abs/2412.18224v1
- Date: Tue, 24 Dec 2024 07:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:24.246615
- Title: Expand VSR Benchmark for VLLM to Expertize in Spatial Rules
- Title(参考訳): VLLMのためのVSRベンチマークの拡張と空間ルールのエキスパート化
- Authors: Peijin Xie, Lin Sun, Bingquan Liu, Dexin Wang, Xiangzheng Zhang, Chengjie Sun, Jiajia Zhang,
- Abstract要約: 視覚的空間推論は人間の認知の基本的な部分であり、クロスインスタンスの微妙な認識を必要とする。
視覚的位置推論に特化した視覚大言語モデル(VLLM)には、十分な量と品質評価と最適化データセットが不足している。
現状のVLLMでは,言語命令に対する過敏性や視覚的位置情報に対する過敏性の矛盾がみられた。
我々の知る限り、拡散モデルを用いて空間的に位置決めされた画像データを協調的に拡張し、元のビジュアルエンコーディングを統合した。
- 参考スコア(独自算出の注目度): 11.320245739677826
- License:
- Abstract: Distinguishing spatial relations is a basic part of human cognition which requires fine-grained perception on cross-instance. Although benchmarks like MME, MMBench and SEED comprehensively have evaluated various capabilities which already include visual spatial reasoning(VSR). There is still a lack of sufficient quantity and quality evaluation and optimization datasets for Vision Large Language Models(VLLMs) specifically targeting visual positional reasoning. To handle this, we first diagnosed current VLLMs with the VSR dataset and proposed a unified test set. We found current VLLMs to exhibit a contradiction of over-sensitivity to language instructions and under-sensitivity to visual positional information. By expanding the original benchmark from two aspects of tunning data and model structure, we mitigated this phenomenon. To our knowledge, we expanded spatially positioned image data controllably using diffusion models for the first time and integrated original visual encoding(CLIP) with other 3 powerful visual encoders(SigLIP, SAM and DINO). After conducting combination experiments on scaling data and models, we obtained a VLLM VSR Expert(VSRE) that not only generalizes better to different instructions but also accurately distinguishes differences in visual positional information. VSRE achieved over a 27\% increase in accuracy on the VSR test set. It becomes a performant VLLM on the position reasoning of both the VSR dataset and relevant subsets of other evaluation benchmarks. We open-sourced the expanded model with data and Appendix at \url{https://github.com/peijin360/vsre} and hope it will accelerate advancements in VLLM on VSR learning.
- Abstract(参考訳): 空間的関係の識別は人間の認知の基本的な部分であり、クロスインスタンスに対する微妙な認識を必要とする。
MME、MMBench、SEEDなどのベンチマークは、視覚空間推論(VSR)を含む様々な機能を総合的に評価している。
視覚的位置推論に特化した視覚大言語モデル(VLLM)には、十分な量と品質評価と最適化データセットが不足している。
これに対応するために、我々はVSRデータセットで現在のVLLMを最初に診断し、統一されたテストセットを提案した。
現状のVLLMでは,言語命令に対する過敏性や視覚的位置情報に対する過敏性の矛盾がみられた。
タンニングデータとモデル構造という2つの側面からオリジナルのベンチマークを拡張することで、この現象を緩和した。
我々の知る限り、拡散モデルを用いて空間的位置画像データを制御し、他の3つの強力なビジュアルエンコーダ(SigLIP、SAM、DINO)とCLIPを統合した。
VLLM VSR Expert (VSRE) は,データとモデルのスケーリング実験を行った後,異なる命令を一般化するだけでなく,視覚的位置情報の差異を正確に識別する。
VSREはVSRテストセットで27倍の精度で達成された。
VSRデータセットと他の評価ベンチマークの関連するサブセットの両方の位置推論におけるパフォーマンスVLLMとなる。
VSR学習におけるVLLMの進歩を加速させることを願っている。
関連論文リスト
- Membership Inference Attacks against Large Vision-Language Models [40.996912464828696]
大規模視覚言語モデル(VLLM)は、様々なアプリケーションシナリオにわたるマルチモーダルタスクを処理するための有望な能力を示す。
彼らの出現は、プライベート写真や医療記録などの機密情報を含む可能性があることを考えると、重要なデータセキュリティ上の懸念も引き起こす。
VLLMで不適切な使用データを検出することは、致命的かつ未解決な問題である。
論文 参考訳(メタデータ) (2024-11-05T08:35:08Z) - DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark [11.633202976929873]
本稿では,データ拡張とデータ混合戦略を用いて,高品質なリモートセンシングLVLMデータセットDDFAVを提案する。
次に、提案したデータセットから選択した高品質なリモートセンシング画像に基づいて、トレーニング命令セットを生成する。
最後に、提案したデータセットに基づいて、リモートセンシングによるLVLMの幻覚評価手法RSPOPEを開発し、異なるLVLMのゼロショット機能を評価する。
論文 参考訳(メタデータ) (2024-11-05T02:03:12Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - Why are Visually-Grounded Language Models Bad at Image Classification? [39.76294811955341]
GPT-4VやLLaVAといった視覚的言語モデル(VLM)を用いて画像分類タスクを再検討する。
既存のプロプライエタリかつパブリックなVLMは、ImageNetのような標準画像分類ベンチマークにおいてCLIPを著しく上回っていることがわかった。
画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。
論文 参考訳(メタデータ) (2024-05-28T17:57:06Z) - Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Localized Symbolic Knowledge Distillation for Visual Commonsense Models [150.18129140140238]
ローカル化されたVisual Commonsenseモデルを構築し、ユーザが入力として(複数の)リージョンを指定できるようにします。
大規模言語モデルから局所的なコモンセンス知識を抽出してモデルを訓練する。
局所化コモンセンスコーパスのトレーニングにより,既存の視覚言語モデルを抽出し,リファレンス・アズ・インプット・インタフェースをサポートできることが判明した。
論文 参考訳(メタデータ) (2023-12-08T05:23:50Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。