論文の概要: Human Re-ID Meets LVLMs: What can we expect?
- arxiv url: http://arxiv.org/abs/2501.18698v1
- Date: Thu, 30 Jan 2025 19:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:03.760322
- Title: Human Re-ID Meets LVLMs: What can we expect?
- Title(参考訳): 人間のRe-IDとLVLM:何が期待できるのか?
- Authors: Kailash Hambarde, Pranita Samale, Hugo Proença,
- Abstract要約: 人間の再識別作業における主要な視覚言語モデルの性能を比較した。
以上の結果から,LVLMの強度は確認できたが,破滅的な回答につながる場合が多い。
- 参考スコア(独自算出の注目度): 14.370360290704197
- License:
- Abstract: Large vision-language models (LVLMs) have been regarded as a breakthrough advance in an astoundingly variety of tasks, from content generation to virtual assistants and multimodal search or retrieval. However, for many of these applications, the performance of these methods has been widely criticized, particularly when compared with state-of-the-art methods and technologies in each specific domain. In this work, we compare the performance of the leading large vision-language models in the human re-identification task, using as baseline the performance attained by state-of-the-art AI models specifically designed for this problem. We compare the results due to ChatGPT-4o, Gemini-2.0-Flash, Claude 3.5 Sonnet, and Qwen-VL-Max to a baseline ReID PersonViT model, using the well-known Market1501 dataset. Our evaluation pipeline includes the dataset curation, prompt engineering, and metric selection to assess the models' performance. Results are analyzed from many different perspectives: similarity scores, classification accuracy, and classification metrics, including precision, recall, F1 score, and area under curve (AUC). Our results confirm the strengths of LVLMs, but also their severe limitations that often lead to catastrophic answers and should be the scope of further research. As a concluding remark, we speculate about some further research that should fuse traditional and LVLMs to combine the strengths from both families of techniques and achieve solid improvements in performance.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、コンテンツ生成から仮想アシスタント、マルチモーダル検索や検索に至るまで、驚くほど多様なタスクにおいて画期的な進歩と見なされてきた。
しかし、これらの多くのアプリケーションにおいて、これらの手法の性能は、特に特定の分野における最先端の手法や技術と比較して、広く批判されている。
本研究では、人間の再識別タスクにおける主要な視覚言語モデルの性能を比較し、この問題に特化して設計された最先端AIモデルによって達成されたパフォーマンスのベースラインとして利用する。
本稿では,ChatGPT-4o,Gemini-2.0-Flash,Claude 3.5 Sonnet,Qwen-VL-Maxによる結果と,有名なMarket1501データセットを用いたベースラインReID PersonViTモデルとの比較を行った。
評価パイプラインには、データセットのキュレーション、プロンプトエンジニアリング、およびモデルの性能を評価するためのメトリックセレクションが含まれています。
結果は、類似度スコア、分類精度、精度、リコール、F1スコア、曲線下面積(AUC)など、さまざまな観点から分析される。
以上の結果から,LVLMの強度を確認するとともに,破滅的な回答を招き,さらなる研究の対象となることも多い。
結論として、従来のLVLMとLVLMを融合させ、両技法の長所を融合させ、性能の確固たる改善を実現するためのさらなる研究を推察する。
関連論文リスト
- LLM4DS: Evaluating Large Language Models for Data Science Code Generation [0.0]
本稿では、Microsoft Copilot(GPT-4 Turbo)、ChatGPT(o1-preview)、Claude(3.5 Sonnet)、Perplexity Labs(Llama-3.1-70b-instruct)の4つの主要なAIアシスタントの性能を実証的に評価する。
すべてのモデルが50%の成功率を超え、ランダムなチャンスを超えた能力が確認された。
ChatGPTは様々な難易度で一貫した性能を示し、クロードの成功率はタスクの複雑さによって変動した。
論文 参考訳(メタデータ) (2024-11-16T18:43:26Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Large Language Model Evaluation Via Multi AI Agents: Preliminary results [3.8066447473175304]
本稿では,多言語モデル(LLM)の性能評価と比較を目的とした,新しいマルチエージェントAIモデルを提案する。
我々のモデルは8つの異なるAIエージェントで構成されており、それぞれが異なる先進言語モデルから共通の記述に基づいてコードを取得する責任がある。
我々はHumanEvalベンチマークを検証エージェントに統合し、生成されたコードのパフォーマンスを評価し、それぞれの能力と効率について洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T10:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。