Fugu-MT 論文翻訳(概要): LVLM-COUNT: Enhancing the Counting Ability of Large Vision-Language Models

論文の概要: LVLM-COUNT: Enhancing the Counting Ability of Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2412.00686v2
Date: Sun, 02 Feb 2025 17:49:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.366681
Title: LVLM-COUNT: Enhancing the Counting Ability of Large Vision-Language Models
Title（参考訳）: LVLM-COUNT:大規模視覚言語モデルのカウント能力向上
Authors: Muhammad Fetrat Qharabagh, Mohammadreza Ghofrani, Kimon Fountoulakis,
Abstract要約: 大規模視覚言語モデル(LVLM)は、訓練中に遭遇する物体の数を超えるタスクを数えるのに苦労する。分割・対数手法を用いてLVLMのカウント能力を向上し、カウント問題をサブカウントタスクに分割する。提案手法は,様々なデータセットやベンチマークにおけるLVLMのカウント能力を向上させる。
参考スコア（独自算出の注目度）: 5.892066196730199
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Counting is a fundamental operation for various visual tasks in real-life applications, requiring both object recognition and robust counting capabilities. Despite their advanced visual perception, large vision-language models (LVLMs) struggle with counting tasks, especially when the number of objects exceeds those commonly encountered during training. We enhance LVLMs' counting abilities using a divide-and-conquer approach, breaking counting problems into sub-counting tasks. Our method employs a mechanism that prevents bisecting and thus repetitive counting of objects, which occurs in a naive divide-and-conquer approach. Unlike prior methods, which do not generalize well to counting datasets they have not been trained on, our method performs well on new datasets without any additional training or fine-tuning. We demonstrate that our approach enhances the counting capability of LVLMs across various datasets and benchmarks.
Abstract（参考訳）: カウントは現実のアプリケーションにおける様々な視覚的タスクの基本的な操作であり、オブジェクト認識と堅牢なカウント機能の両方を必要とする。高度な視覚的認識にもかかわらず、大きな視覚言語モデル(LVLM)は、特に訓練中に遭遇する物体の数を超える場合、タスクを数えるのに苦労する。分割・対数手法を用いてLVLMのカウント能力を向上し、カウント問題をサブカウントタスクに分割する。本手法では,二分法および反復的な対象のカウントを防止する機構を用いており,これは素早い分割・コンカレント・アプローチで発生する。トレーニングされていないデータセットをカウントするのにうまく一般化していない従来の手法とは異なり、本手法は追加のトレーニングや微調整を行わずに新しいデータセット上でうまく機能する。提案手法は,様々なデータセットやベンチマークにおけるLVLMのカウント能力を向上させる。

関連論文リスト

MathOPEval: A Fine-grained Evaluation Benchmark for Visual Operations of MLLMs in Mathematical Reasoning [57.42710816140401]
有望なアプローチでは、中間表現としてコードを使用し、推論ステップで画像を正確に表現し、操作する。既存の評価はテキストのみの推論出力に重点を置いており、MLLMはコードによる正確な視覚操作をほとんど探索されていないままにしている。この研究は、マルチモーダル数学的推論におけるMLLMのコードベース能力を評価することによって、そのギャップに対処する第一歩を踏み出した。
論文参考訳（メタデータ） (2025-07-24T07:03:11Z)
VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-07-17T17:59:55Z)
CountLLM: Towards Generalizable Repetitive Action Counting via Large Language Model [21.173115602479996]
繰り返しのアクションカウントは、フィットネス監視などのビデオ分析アプリケーションに有用である。我々は,ビデオデータと周期的テキストプロンプトを入力として取り出し,所望のカウント値を出力する,LLMに基づく最初の大規模言語モデルであるCountLLMを提案する。本研究では,周期性の特徴を記述し,整合性を確保するために標準化された応答形式を実装した命令のための周期性ベースの構造化テンプレートを開発する。
論文参考訳（メタデータ） (2025-03-22T08:20:31Z)
Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models [31.34575955517015]
Finedeficsは、トレーニングフェーズにオブジェクトの情報属性記述を組み込むことで、モデルのFGVR能力を向上するMLLMである。我々は、オブジェクト-属性対と属性-カテゴリ対を同時に比較学習し、類似しているが誤ったカテゴリの例をハードネガティブとして利用する。複数の人気のあるFGVRデータセットに対する広範囲な評価は、Finedeficsが既存のMLLMを同等のパラメータサイズで上回っていることを示している。
論文参考訳（メタデータ） (2025-01-25T08:52:43Z)
Visual RAG: Expanding MLLM visual knowledge without fine-tuning [5.341192792319891]
本稿では、文脈から学習するMLLMの機能と検索機構を相乗的に組み合わせたVisual RAGを紹介する。このようにして、得られたシステムは、トレーニングデータから抽出した知識に限らず、微調整なしで、迅速かつ容易に更新できる。モデル画像分類性能を改善するための計算コストを大幅に削減し、トレーニングされていない新しい視覚領域やタスクにモデル知識を拡大する。
論文参考訳（メタデータ） (2025-01-18T17:43:05Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文参考訳（メタデータ） (2024-11-07T09:17:50Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文参考訳（メタデータ） (2024-08-13T08:26:32Z)
Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文参考訳（メタデータ） (2024-07-16T01:28:06Z)
Zero-shot Object Counting with Good Exemplars [35.7544908318547]
Zero-shot Object counting (ZOC)は、テスト中のオブジェクトクラス名のみを使用して、手動のアノテーションを必要とせずに、イメージ内のオブジェクトを列挙することを目的としている。視覚アソシエーションに基づくゼロショットオブジェクトカウント(VA-Count)フレームワークを提案する。 VA-Count は Exemplar Enhancement Module (EEM) と Noise Suppression Module (NSM) から構成される。
論文参考訳（メタデータ） (2024-07-06T03:37:22Z)
RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。本稿では,MLLMの検索とランク付けのための拡張手法を提案する。提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文参考訳（メタデータ） (2024-03-20T17:59:55Z)
Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文参考訳（メタデータ） (2024-03-14T16:47:25Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
Visual Enumeration Remains Challenging for Multimodal Generative AI [0.08192907805418582]
最先端のAIシステムでさえ、列挙スキルが非常に限られていることが観察されている。一般的な視覚的質問応答モデル(BLIP, LLaVA, ViLT)と高度な画像テキスト(Gemini, GPT, Qwen)AIシステムを検討する。解析の結果,最も先進的なモデルでさえ,単純な視覚刺激で対象物を確実に命名したり,対象物数を含む画像を生成することはできないことがわかった。
論文参考訳（メタデータ） (2024-01-09T18:18:32Z)
Distribution Matching for Multi-Task Learning of Classification Tasks: a Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。 MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-02T14:18:11Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
Task-Attentive Transformer Architecture for Continual Learning of Vision-and-Language Tasks Using Knowledge Distillation [18.345183818638475]
連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
論文参考訳（メタデータ） (2023-03-25T10:16:53Z)
Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文参考訳（メタデータ） (2021-12-10T14:59:06Z)
Dilated-Scale-Aware Attention ConvNet For Multi-Class Object Counting [18.733301622920102]
多クラスオブジェクトカウントは、オブジェクトカウントタスクの適用範囲を広げる。マルチターゲット検出タスクは、いくつかのシナリオでマルチクラスオブジェクトカウントを実現することができる。ポイントレベルのアノテーションに基づく簡便かつ効率的なカウントネットワークを提案する。
論文参考訳（メタデータ） (2020-12-15T08:38:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。