Fugu-MT 論文翻訳(概要): OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

論文の概要: OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

arxiv url: http://arxiv.org/abs/2406.19389v1
Date: Thu, 27 Jun 2024 17:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 13:09:01.955735
Title: OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding
Title（参考訳）: OMG-LLaVA: 画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解のブリッジ
Authors: Tao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan,
Abstract要約: OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。 OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
参考スコア（独自算出の注目度）: 112.87441334765693
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current universal segmentation methods demonstrate strong capabilities in pixel-level image and video understanding. However, they lack reasoning abilities and cannot be controlled via text instructions. In contrast, large vision-language multimodal models exhibit powerful vision-based conversation and reasoning capabilities but lack pixel-level understanding and have difficulty accepting visual prompts for flexible user interaction. This paper proposes OMG-LLaVA, a new and elegant framework combining powerful pixel-level vision understanding with reasoning abilities. It can accept various visual and text prompts for flexible user interaction. Specifically, we use a universal segmentation method as the visual encoder, integrating image information, perception priors, and visual prompts into visual tokens provided to the LLM. The LLM is responsible for understanding the user's text instructions and providing text responses and pixel-level segmentation results based on the visual information. We propose perception prior embedding to better integrate perception priors with image features. OMG-LLaVA achieves image-level, object-level, and pixel-level reasoning and understanding in a single model, matching or surpassing the performance of specialized methods on multiple benchmarks. Rather than using LLM to connect each specialist, our work aims at end-to-end training on one encoder, one decoder, and one LLM. The code and model have been released for further research.
Abstract（参考訳）: 現在のユニバーサルセグメンテーション法は、ピクセルレベルの画像とビデオ理解において強力な機能を示している。しかし、推論能力がなく、テキスト命令では制御できない。対照的に、大きな視覚言語によるマルチモーダルモデルは、強力な視覚ベースの会話と推論能力を示すが、ピクセルレベルの理解が欠如し、フレキシブルなユーザインタラクションのための視覚的プロンプトを受け入れるのが困難である。本稿では,強力な画素レベルの視覚理解と推論能力を組み合わせた,新しいエレガントかつエレガントなフレームワークOMG-LLaVAを提案する。フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。具体的には、視覚的エンコーダとして普遍的なセグメンテーション手法を用い、画像情報、知覚前兆、視覚的プロンプトをLCMに提供した視覚トークンに統合する。 LLMは、ユーザのテキスト命令を理解し、視覚情報に基づいてテキスト応答とピクセルレベルのセグメンテーション結果を提供する。画像特徴と知覚の事前認識をよりよく統合するために,知覚の事前埋め込みを提案する。 OMG-LLaVAは、イメージレベル、オブジェクトレベル、ピクセルレベルの推論と理解を1つのモデルで達成し、複数のベンチマークで特定のメソッドのパフォーマンスをマッチングまたは上回る。各専門家を繋ぐためにLLMを使うのではなく、エンコーダ1つ、デコーダ1つ、LLM1つでエンドツーエンドのトレーニングを目標としています。コードとモデルは、さらなる研究のためにリリースされている。

関連論文リスト

UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture [46.88622050135756]
UniPercept-Benchは3つの主要な領域(美学、品質、構造、テクスチャ)にまたがる知覚レベルのイメージ理解のための統合されたフレームワークである。ドメイン指向の事前学習とタスク指向のRLによってトレーニングされた強力なベースラインUniPerceptを開発し、ビジュアルレーティング(VR)タスクと視覚質問応答(VQA)タスクの両方にわたって堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2025-12-25T13:35:52Z)
PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images [58.73779101355669]
PixelCraftは、高忠実度画像処理と、構造化画像に対する柔軟な視覚的推論のための、新しいマルチエージェントシステムである。この基盤の上に構築されたPixelCraftは、ツールの選択、エージェントの議論、自己批判といった3段階の動的なワークフローを通じて、視覚的推論を容易にする。
論文参考訳（メタデータ） (2025-09-29T17:59:49Z)
UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning [83.68366772745689]
視覚的なプロンプト入力を柔軟に解釈し,マスクによる応答を生成できる大規模マルチモーダルモデルUniPixelを提案する。具体的には、UniPixelは、要求に応じて視覚的なプロンプトを処理し、関連するマスクを生成し、推論中にこれらの中間ポインタに対してその後の推論条件を実行する。提案手法の有効性は,画素レベルの参照/セグメンテーションや画像・ビデオにおけるオブジェクト中心の理解など,多種多様なタスクを対象とした10のベンチマークで検証されている。
論文参考訳（メタデータ） (2025-09-22T17:59:40Z)
Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding [65.11838260342586]
画素ワイドMLLMタスクのための単一変換器であるPixel-SAILを提案する。本稿では,視覚的プロンプト入力を単一変換器で理解するための新しい視覚的プロンプトインジェクション戦略を提案する。また, 単一変圧器の微細な特徴抽出能力を効率的に向上するために, ビジョンエキスパート蒸留戦略を導入する。
論文参考訳（メタデータ） (2025-04-14T17:52:22Z)
HyperSeg: Towards Universal Visual Segmentation with Large Language Model [40.326267496697845]
本稿では,視覚的大言語モデル(VLLM)による強力な推論能力により,画像・映像知覚の普遍的セグメンテーションを実現することを目的とする。画素レベルの画像と映像知覚のための,VLLMに基づく最初のユニバーサルセグメンテーションモデルであるHyperSegを提案する。
論文参考訳（メタデータ） (2024-11-26T17:18:20Z)
Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing [150.0380447353081]
本稿では,静的画像とダイナミックビデオの両方の包括的理解,セグメンテーション,クラスタ化のために設計された,ユニバーサルピクセルレベルのビジョンLLMであるVITRONを紹介する。 LLMの上に構築されているVITRONは、画像、ビデオ、ピクセルレベルの地域視覚のエンコーダをモジュール内に組み込んでおり、最先端のビジュアルスペシャリストをバックエンドとして採用している。
論文参考訳（メタデータ） (2024-10-08T08:39:04Z)
Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文参考訳（メタデータ） (2024-08-09T12:13:01Z)
ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。 ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。 We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文参考訳（メタデータ） (2023-12-21T18:49:47Z)
TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。 GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文参考訳（メタデータ） (2023-08-31T17:52:04Z)
VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。 VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文参考訳（メタデータ） (2022-08-19T14:39:18Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。