論文の概要: DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.14767v1
- Date: Thu, 22 Feb 2024 18:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:03:08.626889
- Title: DualFocus: Integrating Macro and Micro Perspectives in Multi-modal Large
Language Models
- Title(参考訳): DualFocus:マルチモーダル大言語モデルにおけるマクロとマイクロパースペクティブの統合
- Authors: Yuhang Cao, Pan Zhang, Xiaoyi Dong, Dahua Lin, Jiaqi Wang
- Abstract要約: マルチモーダル大言語モデル(MLLM)におけるマクロ・マイクロ視点の統合フレームワークであるDualFocusについて述べる。
本研究は,DualFocusが総合的な洞察と詳細な検査のバランスをとる上で優れていることを示し,MLLMの幻覚例を著しく減らした。
- 参考スコア(独自算出の注目度): 85.4852517178828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DualFocus, a novel framework for integrating macro and micro
perspectives within multi-modal large language models (MLLMs) to enhance
vision-language task performance. Current MLLMs typically singularly focus on
inputs at a predefined resolution, resulting in deficiencies in detailed
questions involving local regions. We introduced a DualFocus mechanism where
the model concentrates on the image from a macro perspective, responses to the
question, and identifies suitable sub-regions to zoom in for subsequent micro
perspective analysis. Via the integration of answers from both macro and micro
perspectives, the model is adept at addressing tasks that encompass global,
detailed, and combined considerations. To endows the DualFocus mechanism in
MLLMs, we curated a tailored dataset derived from the Visual Genome (VG) and
adapted it to align with the training regimen of DualFocus. Through comparative
studies across different model sizes and benchmarks, we demonstrate DualFocus's
superiority in balancing detailed examination with holistic insight,
significantly reducing hallucination instances in MLLMs and improving their
performance in various vision-language tasks.
- Abstract(参考訳): 本稿では,マルチモーダル大規模言語モデル(mllms)にマクロおよびマイクロ視点を統合する新しいフレームワークであるdualfocusを提案する。
現在のMLLMは、通常、事前に定義された解像度で入力にのみ焦点を合わせ、局所領域を含む詳細な質問に欠陥をもたらす。
そこで我々は,マクロ視点からの画像に集中し,質問に対する応答を提示し,ズームインする適切な部分領域を識別し,マイクロ視点解析を行うデュアルフォーカス機構を導入した。
マクロとマイクロの両方の観点からの回答の統合により、このモデルはグローバル、詳細、複合的な考慮事項を含むタスクに対処できる。
MLLMにDualFocus機構を付与するため,視覚ゲノム(VG)由来のカスタマイズデータセットをキュレートし,DualFocusのトレーニングレギュレーションに適合させた。
異なるモデルサイズとベンチマークの比較研究を通じて,詳細な検査と総合的洞察のバランスを両立させ,mllmにおける幻覚インスタンスを著しく削減し,様々な視覚言語タスクでの性能を向上させることを実証した。
関連論文リスト
- INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - MammothModa: Multi-Modal Large Language Model [17.98445238232718]
MammothModaは、Multi-modal large language model(MLLM)である。
MammothModaは、例えばLLaVAシリーズのような最先端のモデルを、ベルやホイッスルのない主要な実世界のビジュアル言語ベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2024-06-26T09:17:27Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [18.100947750831885]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning [42.68425777473114]
大規模言語モデル(LLM)によって強化された視覚言語モデル(VLM)は、急速に人気が高まっている。
マルチモーダル・インコンテキスト・ラーニング(MMICL)を用いた視覚言語モデルを導入し,VLMがマルチモーダル入力を効率的に処理できるようにする。
実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
論文 参考訳(メタデータ) (2023-09-14T17:59:17Z) - Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。