論文の概要: Chain-of-Caption: Training-free improvement of multimodal large language model on referring expression comprehension
- arxiv url: http://arxiv.org/abs/2602.08211v1
- Date: Mon, 09 Feb 2026 02:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.031133
- Title: Chain-of-Caption: Training-free improvement of multimodal large language model on referring expression comprehension
- Title(参考訳): Chain-of-Caption:表現理解の参照に基づく多モーダル大言語モデルの学習自由化
- Authors: Yik Lung Pang, Changjae Oh,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は,表現理解ベンチマークの参照において高い精度を実現している。
MLLMのREC性能を改善するために,Chain-of-Captionというトレーニング不要のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.62378960346511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a textual description, the task of referring expression comprehension (REC) involves the localisation of the referred object in an image. Multimodal large language models (MLLMs) have achieved high accuracy on REC benchmarks through scaling up the model size and training data. Moreover, the performance of MLLMs can be further improved using techniques such as Chain-of-Thought and tool use, which provides additional visual or textual context to the model. In this paper, we analyse the effect of various techniques for providing additional visual and textual context via tool use to the MLLM and its effect on the REC task. Furthermore, we propose a training-free framework named Chain-of-Caption to improve the REC performance of MLLMs. We perform experiments on RefCOCO/RefCOCOg/RefCOCO+ and Ref-L4 datasets and show that individual textual or visual context can improve the REC performance without any fine-tuning. By combining multiple contexts, our training-free framework shows between 5% to 30% performance gain over the baseline model on accuracy at various Intersection over Union (IoU) thresholds.
- Abstract(参考訳): テキスト記述が与えられた場合、表現理解(REC)を参照するタスクは、画像中の参照対象の局所化を伴う。
MLLM(Multimodal large language model)は、モデルサイズとトレーニングデータをスケールアップすることで、RECベンチマークで高い精度を実現している。
さらに、MLLMのパフォーマンスは、Chain-of-Thoughtやツールの使用といったテクニックによってさらに改善され、モデルに視覚的あるいはテキスト的コンテキストを提供する。
本稿では,MLLMのツール使用による視覚的・テキスト的コンテキストの付加的提供に対する様々な手法の効果とそのRECタスクへの影響について分析する。
さらに,MLLMのREC性能を向上させるため,Chain-of-Captionという名前のトレーニングフリーフレームワークを提案する。
RefCOCO/RefCOCOg/RefCOCO+およびRef-L4データセットの実験を行い、微調整なしで個々のテキストや視覚的コンテキストがREC性能を向上させることを示す。
複数のコンテキストを組み合わせることで、トレーニング不要のフレームワークは、様々なIoU(Intersection over Union)しきい値において、ベースラインモデルよりも5%から30%のパフォーマンス向上を示す。
関連論文リスト
- What do vision-language models see in the context? Investigating multimodal in-context learning [2.1119217917006234]
インコンテキスト学習(ICL)により、大規模言語モデルでは、パラメータ更新なしで実演例からタスクを学習することができる。
視覚言語モデル(VLM)におけるICLの体系的研究について述べる。
我々は、設計、アーキテクチャの選択、トレーニング戦略がマルチモーダルICLにどのように影響するかを分析する。
論文 参考訳(メタデータ) (2025-10-28T11:55:24Z) - Scaling Language-Centric Omnimodal Representation Learning [26.999264997449586]
大規模言語モデル (MLLM) を利用したマルチモーダル埋め込み手法は, 比較学習 (CL) によって微調整され, 有望な結果が得られた。
この研究は、MLLMに基づくアプローチの重要な利点は、生成前訓練中に達成される暗黙の相互モーダルアライメントに起因していると主張している。
我々はLCO-Embと呼ばれる言語中心のOmnimodal Embeddingフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T17:53:52Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - Visual RAG: Expanding MLLM visual knowledge without fine-tuning [5.341192792319891]
本稿では、文脈から学習するMLLMの機能と検索機構を相乗的に組み合わせたVisual RAGを紹介する。
このようにして、得られたシステムは、トレーニングデータから抽出した知識に限らず、微調整なしで、迅速かつ容易に更新できる。
モデル画像分類性能を改善するための計算コストを大幅に削減し、トレーニングされていない新しい視覚領域やタスクにモデル知識を拡大する。
論文 参考訳(メタデータ) (2025-01-18T17:43:05Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。