Fugu-MT 論文翻訳(概要): GROUNDHOG: Grounding Large Language Models to Holistic Segmentation

論文の概要: GROUNDHOG: Grounding Large Language Models to Holistic Segmentation

arxiv url: http://arxiv.org/abs/2402.16846v1
Date: Mon, 26 Feb 2024 18:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 19:21:14.116804
Title: GROUNDHOG: Grounding Large Language Models to Holistic Segmentation
Title（参考訳）: GROUNDHOG: 大規模言語モデルからホロスティックセグメンテーションへ
Authors: Yichi Zhang, Ziqiao Ma, Xiaofeng Gao, Suhaila Shakiah, Qiaozi Gao, Joyce Chai
Abstract要約: 本稿では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。 GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的実体トークンに変換する。実験結果から,GROUNDHOGはタスク固有の微調整を伴わずに,様々な言語基盤タスクにおいて優れた性能を発揮することが示された。
参考スコア（独自算出の注目度）: 23.67986085914003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most multimodal large language models (MLLMs) learn language-to-object grounding through causal language modeling where grounded objects are captured by bounding boxes as sequences of location tokens. This paradigm lacks pixel-level representations that are important for fine-grained visual understanding and diagnosis. In this work, we introduce GROUNDHOG, an MLLM developed by grounding Large Language Models to holistic segmentation. GROUNDHOG incorporates a masked feature extractor and converts extracted features into visual entity tokens for the MLLM backbone, which then connects groundable phrases to unified grounding masks by retrieving and merging the entity masks. To train GROUNDHOG, we carefully curated M3G2, a grounded visual instruction tuning dataset with Multi-Modal Multi-Grained Grounding, by harvesting a collection of segmentation-grounded datasets with rich annotations. Our experimental results show that GROUNDHOG achieves superior performance on various language grounding tasks without task-specific fine-tuning, and significantly reduces object hallucination. GROUNDHOG also demonstrates better grounding towards complex forms of visual input and provides easy-to-understand diagnosis in failure cases.
Abstract（参考訳）: ほとんどのマルチモーダル大規模言語モデル(MLLM)は、境界ボックスを位置トークンのシーケンスとして捉えた因果言語モデリングを通じて言語からオブジェクトへのグラウンドを学習する。このパラダイムは、微細な視覚的理解と診断に重要なピクセルレベルの表現を欠いている。本研究では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。 GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的エンティティトークンに変換する。 M3G2はマルチモーダル・マルチグラインド・グラウンディングを用いて,リッチアノテーションを用いたセグメンテーション・グラウンドド・データセットの収集により,グラウンドド・ビジュアル・インストラクション・チューニング・データセットである。実験の結果,タスク固有の微調整を行わずに,様々な言語グラウンドタスクで優れた性能を達成でき,オブジェクト幻覚を著しく低減できることがわかった。 GROUNDHOGはまた、複雑な視覚入力へのより良い基盤を示し、障害ケースで容易に理解できる診断を提供する。

関連論文リスト

Grounding Everything in Tokens for Multimodal Large Language Models [22.159698168842862]
本稿では,学習可能なトークンの特別な語彙をMLLMに統合する,オブジェクトのグラウンド化のための空間表現手法であるGETokを提案する。トークンに直接空間関係を埋め込むことにより、GETokは自己回帰アーキテクチャを変更することなく、ネイティブな2次元空間推論においてMLLMを著しく前進させる。
論文参考訳（メタデータ） (2025-12-11T11:38:50Z)
IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。 MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文参考訳（メタデータ） (2025-10-16T02:48:05Z)
Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。 FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-07-24T11:28:53Z)
PostAlign: Multimodal Grounding as a Corrective Lens for MLLMs [23.69973859198496]
MLLM(Multimodal Large Language Models)は、画像キャプションや視覚的質問応答などの視覚言語タスクに優れる。主に、モデルが実際の視覚情報を活用するのを妨げている言語的先行性のために、急激な相関に対する過度な信頼に悩まされることが多い。 MMed-PostAlignは、視覚的理解能力を高め、MLLMの幻覚を軽減するために設計された、マルチモーダル後のアライメントフレームワークである。
論文参考訳（メタデータ） (2025-06-22T05:11:46Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文参考訳（メタデータ） (2024-09-25T08:22:00Z)
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文参考訳（メタデータ） (2024-09-23T06:56:51Z)
Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文参考訳（メタデータ） (2024-07-18T20:29:49Z)
ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。 ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models [62.36769498166312]
本稿では,マルチモーダル大規模言語モデル(MLLM)であるGromaを紹介する。グロマは地域キャプションや視覚的接地といった地域レベルのタスクに適している。ユーザ命令とモデル応答にリージョントークンを統合することで、Gromaがユーザ指定のリージョン入力をシームレスに理解できるようにする。
論文参考訳（メタデータ） (2024-04-19T17:22:51Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文参考訳（メタデータ） (2024-02-27T08:27:15Z)
Expand BERT Representation with Visual Information via Grounded Language Learning with Multimodal Partial Alignment [11.148099070407431]
GroundedBERT(グラウンドドバート)は、視覚的にグラウンドドされた情報でBERT表現を強化する、グラウンドド言語学習法である。提案手法は,GLUEおよびSQuADデータセットの様々な言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。
論文参考訳（メタデータ） (2023-12-04T03:16:48Z)
GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。 GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文参考訳（メタデータ） (2023-11-06T18:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。