論文の概要: ByDeWay: Boost Your multimodal LLM with DEpth prompting in a Training-Free Way
- arxiv url: http://arxiv.org/abs/2507.08679v1
- Date: Fri, 11 Jul 2025 15:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.404648
- Title: ByDeWay: Boost Your multimodal LLM with DEpth prompting in a Training-Free Way
- Title(参考訳): ByDeWay:DepthでマルチモーダルLLMをトレーニング不要に
- Authors: Rajarshi Roy, Devleena Das, Ankesh Banerjee, Arjya Bhattacharjee, Kousik Dasgupta, Subarna Tripathi,
- Abstract要約: ByDeWayは、MLLM(Multimodal Large Language Models)のパフォーマンスを向上させるために設計された、トレーニング不要のフレームワークである。
ByDeWayはLayered-Depth-Based Prompting(LDP)と呼ばれる新しいプロンプト戦略を使っている
シーンを単眼深度推定を用いて最も近い中距離層と最も遠い層に分割し、接地された視覚言語モデルで領域固有のキャプションを生成する。
- 参考スコア(独自算出の注目度): 7.18701660596182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ByDeWay, a training-free framework designed to enhance the performance of Multimodal Large Language Models (MLLMs). ByDeWay uses a novel prompting strategy called Layered-Depth-Based Prompting (LDP), which improves spatial reasoning and grounding without modifying any model parameters. It segments the scene into closest, mid-range, and farthest layers using monocular depth estimation, then generates region-specific captions with a grounded vision-language model. These structured, depth-aware captions are appended to the image-question prompt, enriching it with spatial context. This guides MLLMs to produce more grounded and less hallucinated responses. Our method is lightweight, modular, and compatible with black-box MLLMs. Experiments on hallucination-sensitive (POPE) and reasoning-intensive (GQA) benchmarks show consistent improvements across multiple MLLMs, validating the effectiveness of depth-aware prompting in a zero-training setting.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の性能向上を目的としたトレーニングフリーフレームワークであるByDeWayを紹介する。
ByDeWayは、Layered-Depth-Based Prompting (LDP)と呼ばれる新しいプロンプト戦略を使用している。
シーンを単眼深度推定を用いて最も近い中距離層と最も遠い層に分割し、接地された視覚言語モデルで領域固有のキャプションを生成する。
これらの構造化された深度対応キャプションは、画像検索プロンプトに付加され、空間的コンテキストで強化される。
これはMLLMを誘導し、より接地的で幻覚の少ない応答を生成する。
我々の手法は軽量でモジュール的で、ブラックボックスのMLLMと互換性がある。
幻覚感受性(POPE)と推論集約(GQA)ベンチマークの実験では、複数のMLLM間で一貫した改善が見られ、ゼロトレーニング環境での深度認識の促進の有効性が検証された。
関連論文リスト
- LISA: A Layer-wise Integration and Suppression Approach for Hallucination Mitigation in Multimodal Large Language Models [8.122679857175315]
MLLM(Multimodal Large Language Models)は、視覚言語タスクにおいて優れているが、オブジェクト幻覚の傾向が強い。
階層的変調と多層融合による生成一貫性を向上させるtextbfLISA を提案する。
実験によると、LISAは$mathrmCHAIR_I$で最大53.6%の幻覚を減少させ、POPE F1を4.5%改善する。
論文 参考訳(メタデータ) (2025-07-25T09:48:23Z) - PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis [44.008094698200026]
本稿では,様々な画像記述ベンチマークにおいて,従来の画像キャプションネットワークに代えて,マルチモーダルLLMが性能を評価できるかどうかを検討する。
これらのモデルのゼロショット機能と、細調整による異なるセマンティックドメインへの適応性の両方について検討する。
以上の結果から,マルチモーダル LLM はゼロショット性能に優れる一方で,特定の領域を微調整し,その一般化能力を保ち続けることは依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2024-12-04T19:01:06Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。
MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-20T09:42:43Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。