Fugu-MT 論文翻訳(概要): Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models

論文の概要: Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models

arxiv url: http://arxiv.org/abs/2311.14552v2
Date: Mon, 27 Nov 2023 09:54:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 09:47:20.141360
Title: Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models
Title（参考訳）: Griffon: 大規模言語モデルによる任意の粒度でのすべてのオブジェクト位置の排除
Authors: Yufei Zhan, Yousong Zhu, Zhiyang Chen, Fan Yang, Ming Tang, Jinqiao Wang
Abstract要約: 現在のLVLM(Large Vision Language Models)は、主に1つの既存のオブジェクトに制約されている。本稿では,LVLMの能力を完全に解き放つために,新しい言語プロンプト型ローカライゼーションデータセットを提案する。 $textbfGriffon$は、粒度の細かいRefCOCOシリーズで最先端のパフォーマンスを達成する。また、検出ベンチマークのMSCOCOにおいて、エキスパートモデルであるFaster RCNNの機能にもアプローチする。
参考スコア（独自算出の注目度）: 32.01009756533755
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Replicating the innate human ability to detect all objects based on free-form texts at any granularity remains a formidable challenge for Vision-Language models. Current Large Vision Language Models (LVLMs) are predominantly constrained to grounding a single, pre-existing object, relying solely on data from Referring Expression Comprehension tasks. The limitation leads to a compromise in model design, necessitating the introduction of visual expert models or the integration of customized head structures. Beyond these constraints, our research delves into the untapped potential of LVLMs and uncover their inherent capability for basic object perception, allowing them to accurately identify and locate objects of interest. Building on this insight, we introduce a novel language-prompted localization dataset designed to fully unleash the capabilities of LVLMs in integrating fine-grained object perception with precise location awareness. More importantly, we present $\textbf{Griffon}$, a purely LVLM-based baseline, which does not require the introduction of any special tokens, expert models, or additional detection modules. It simply maintains a consistent structure with popular LVLMs by unifying data formats across various localization-related scenarios and is trained end-to-end through a well-designed pipeline. Comprehensive experiments demonstrate that $\textbf{Griffon}$ not only achieves state-of-the-art performance on the fine-grained RefCOCO series but also approaches the capabilities of the expert model Faster RCNN on the detection benchmark MSCOCO.
Abstract（参考訳）: 任意の粒度で自由形式のテキストに基づいて全てのオブジェクトを検出する能力の再現は、ビジョンランゲージモデルにとって大きな課題である。現在の大きなビジョン言語モデル(lvlms)は、表現理解タスクを参照するデータのみに依存する、既存の単一のオブジェクトの接地に主に制約されている。この制限はモデル設計の妥協につながり、ビジュアルエキスパートモデルの導入やカスタマイズされた頭部構造の統合が必要となる。これらの制約を超えて、我々の研究はLVLMの未解決の可能性を掘り下げ、基本的な物体の知覚に固有の能力を解明し、興味のある物体を正確に識別し見つけられるようにしました。この知見に基づいて,LVLMの微粒な物体認識と正確な位置認識を統合する能力を完全に解き放つために設計された,新しい言語プロンプトローカライゼーションデータセットを提案する。さらに重要なことは、$\textbf{Griffon}$は純粋にLVLMベースのベースラインであり、特別なトークンやエキスパートモデル、追加の検出モジュールを導入する必要はないということです。ローカライゼーションに関連するさまざまなシナリオでデータフォーマットを統合することで、一般的なLVLMと一貫した構造を維持し、よく設計されたパイプラインを通じてエンドツーエンドにトレーニングされる。包括的実験により、$\textbf{Griffon}$は、微細なRefCOCOシリーズにおける最先端のパフォーマンスを達成するだけでなく、検出ベンチマークMSCOCO上でのFaster RCNNの機能にもアプローチすることを示した。

関連論文リスト

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文参考訳（メタデータ） (2026-03-03T13:28:07Z)
TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models [11.7808701773328]
LVLM(Large Vision-Language Models)は通常、エンコーダから学習済みのLarge Language Model(LLM)に視覚的特徴を合わせる。本稿では,LVLMのグローバルな視覚知覚能力を評価するために,トポロジカルな特性を利用するベンチマークであるTopoPerceptionを紹介する。 TopoPerception上での最先端モデルの評価を行い、最も粗い知覚の粒度であっても、全てのモデルがランダムな確率よりは良くないことを示す。
論文参考訳（メタデータ） (2025-11-14T19:45:56Z)
Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。 FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-07-24T11:28:53Z)
Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method [10.748210940033484]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は大きな成功を収めた。リモートセンシング画像と従来の光学画像とは大きく異なるため、これらのモデルは理解の難しさに直面している。リモートセンシング画像におけるオブジェクト検出へのVLMの適用について検討する。
論文参考訳（メタデータ） (2025-03-11T08:02:54Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文参考訳（メタデータ） (2024-10-03T17:49:28Z)
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文参考訳（メタデータ） (2024-09-23T06:56:51Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding [26.888343140449948]
ビジュアルグラウンドティングは、ユーザが提供するテキストクエリと、画像内のクエリ固有の領域を結びつける重要なツールである。 LLM-Opticは,Large Language Models (LLMs) を光学レンズとして利用し,既存の視覚的接地モデルを強化する革新的な手法である。提案手法は,任意の言語入力によって指定された任意のオブジェクトを検出可能な,普遍的な視覚的接地を実現する。
論文参考訳（メタデータ） (2024-05-27T12:23:08Z)
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring [27.45225442048711]
我々は、視覚的およびテキスト的プロンプトによるフレキシブルなオブジェクト参照を可能にする、統合された高分解能一般化モデル、Griffon v2を導入する。我々は,大規模言語モデルにおける入力トークン制約を克服するために,シンプルで軽量なダウンサンプリングプロジェクタを設計する。実験により、Griffon v2は、視覚的およびテキスト的参照で関心のあるオブジェクトをローカライズし、REC、フレーズグラウンド、REGタスクにおける最先端のパフォーマンスを実現し、オブジェクト検出とオブジェクトカウントのエキスパートモデルより優れていることが示された。
論文参考訳（メタデータ） (2024-03-14T12:21:37Z)
PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文参考訳（メタデータ） (2024-02-13T18:39:18Z)
General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。 GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文参考訳（メタデータ） (2023-12-14T17:26:00Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。