論文の概要: MLLMReID: Multimodal Large Language Model-based Person Re-identification
- arxiv url: http://arxiv.org/abs/2401.13201v2
- Date: Wed, 3 Apr 2024 03:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:17:46.271010
- Title: MLLMReID: Multimodal Large Language Model-based Person Re-identification
- Title(参考訳): MLLMReID:マルチモーダル大言語モデルに基づく人物再識別
- Authors: Shan Yang, Yongfei Zhang,
- Abstract要約: MLLM(Multimodal large language model)は多くのタスクにおいて満足な結果を得た。
本稿では、人物再識別(ReID)の課題に適合させる方法について検討する。
- 参考スコア(独自算出の注目度): 14.68436005777866
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal large language models (MLLM) have achieved satisfactory results in many tasks. However, their performance in the task of person re-identification (ReID) has not been explored to date. This paper will investigate how to adapt them for the task of ReID. An intuitive idea is to fine-tune MLLM with ReID image-text datasets, and then use their visual encoder as a backbone for ReID. However, there still exist two apparent issues: (1) Designing instructions for ReID, MLLMs may overfit specific instructions, and designing a variety of instructions will lead to higher costs. (2) Latent image feature vectors from LLMs are not involved in loss computation. Instructional learning, aligning image-text features, results in indirect optimization and a learning objective that inadequately utilizes features, limiting effectiveness in person feature learning. To address these problems, this paper proposes MLLMReID: Multimodal Large Language Model-based ReID. Firstly, we proposed Common Instruction, a simple approach that leverages the essence ability of LLMs to continue writing, avoiding complex and diverse instruction design. Secondly, we proposed DirectReID, which effectively employs the latent image feature vectors of images outputted by LLMs in ReID tasks. The experimental results demonstrate the superiority of our method. We will open-source the code on GitHub.
- Abstract(参考訳): MLLM(Multimodal large language model)は多くのタスクにおいて満足な結果を得た。
しかし, ReID (person re-identification, person re-identification, ReID) の課題における業績は, これまでに調査されていない。
本稿では,ReIDの課題に適合させる方法について検討する。
直感的なアイデアは、ReIDイメージテキストデータセットでMLLMを微調整し、それらのビジュアルエンコーダをReIDのバックボーンとして使用することである。
しかし、(1) ReID の命令の設計、MLLM は特定の命令に過度に適合する可能性があること、そして、様々な命令を設計することがコストの上昇につながること、の2つの明らかな問題がまだ残っている。
2) LLM の遅延像特徴ベクトルは損失計算には関与しない。
インストラクショナルラーニング,画像テキストの特徴の整合,間接的最適化の結果として,特徴を不十分に活用する学習目標が達成され,人的特徴学習の有効性が制限される。
本稿では,MLLMReID: Multimodal Large Language Model-based ReIDを提案する。
まず,LLMの本質的能力を活用するシンプルな手法であるCommon Instructionを提案し,複雑で多様な命令設計を避ける。
第二に、ReIDタスクにおいてLLMによって出力される画像の潜在画像特徴ベクトルを効果的に活用するDirectReIDを提案する。
実験により,本手法の優位性を実証した。
コードをGitHubでオープンソースにします。
関連論文リスト
- Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。
1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。
マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - A Large Language Model Enhanced Conversational Recommender System [25.18571087071163]
会話推薦システム(CRS)は,対話インタフェースを通じて高品質なアイテムをユーザに推薦することを目的としている。
効果的なCRSを開発するには,1)サブタスクを適切に管理する方法,2)異なるサブタスクを効果的に解決する方法,3)ユーザと対話するレスポンスを正しく生成する方法,といった課題がある。
近年、Large Language Models (LLMs) は、より強力なCRSを開発する新たな機会として、推論と生成の先例のない能力を示した。
論文 参考訳(メタデータ) (2023-08-11T16:30:44Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。