Fugu-MT 論文翻訳(概要): ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models

論文の概要: ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models

arxiv url: http://arxiv.org/abs/2502.19958v2
Date: Sat, 22 Mar 2025 11:13:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.537755
Title: ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models
Title（参考訳）: ChatReID: 視覚言語モデルのための階層的プログレッシブチューニングによるオープンエンド対話型人物検索
Authors: Ke Niu, Haiyang Yu, Mengyang Zhao, Teng Fu, Siyang Yi, Wei Lu, Bin Li, Xuelin Qian, Xiangyang Xue,
Abstract要約: 人物の再識別はコンピュータビジョンにおいて重要な課題であり、重複しないカメラビューを通して個人を認識することを目的としている。本稿では,テキストを優先した検索パラダイムに焦点を移し,フレキシブルかつインタラクティブな再識別を可能にする新しいフレームワークChatReIDを提案する。本稿では,人物属性の理解からきめ細かい画像検索,マルチモーダルタスク推論に至るまで,3段階のチューニングを通じてRe-ID能力を実現する階層的プログレッシブチューニング戦略を提案する。
参考スコア（独自算出の注目度）: 49.09606704563898
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Person re-identification (Re-ID) is a crucial task in computer vision, aiming to recognize individuals across non-overlapping camera views. While recent advanced vision-language models (VLMs) excel in logical reasoning and multi-task generalization, their applications in Re-ID tasks remain limited. They either struggle to perform accurate matching based on identity-relevant features or assist image-dominated branches as auxiliary semantics. In this paper, we propose a novel framework ChatReID, that shifts the focus towards a text-side-dominated retrieval paradigm, enabling flexible and interactive re-identification. To integrate the reasoning abilities of language models into Re-ID pipelines, We first present a large-scale instruction dataset, which contains more than 8 million prompts to promote the model fine-tuning. Next. we introduce a hierarchical progressive tuning strategy, which endows Re-ID ability through three stages of tuning, i.e., from person attribute understanding to fine-grained image retrieval and to multi-modal task reasoning. Extensive experiments across ten popular benchmarks demonstrate that ChatReID outperforms existing methods, achieving state-of-the-art performance in all Re-ID tasks. More experiments demonstrate that ChatReID not only has the ability to recognize fine-grained details but also to integrate them into a coherent reasoning process.
Abstract（参考訳）: 人物再識別(Re-ID)はコンピュータビジョンにおいて重要な課題であり、重複しないカメラビューを通して個人を認識することを目的としている。近年の先進視覚言語モデル(VLM)は論理的推論やマルチタスクの一般化に優れているが、Re-IDタスクでの応用は限定的である。彼らはアイデンティティ関連機能に基づいて正確なマッチングを行うのに苦労するか、イメージが支配するブランチを補助的な意味論として支援する。本稿では,テキスト側が支配する検索パラダイムに焦点を移し,フレキシブルかつインタラクティブな再識別を可能にする新しいフレームワークChatReIDを提案する。言語モデルの推論能力をRe-IDパイプラインに統合するために,まず,800万以上のプロンプトを含む大規模命令データセットを提示する。次は。本稿では,人物属性の理解からきめ細かい画像検索,マルチモーダルタスク推論に至るまで,3段階のチューニングを通じてRe-ID能力を実現する階層的プログレッシブチューニング戦略を提案する。 10の人気のあるベンチマークによる大規模な実験は、ChatReIDが既存のメソッドより優れており、すべてのRe-IDタスクで最先端のパフォーマンスを達成することを示している。さらなる実験では、ChatReIDは細かい詳細を認識するだけでなく、それらを一貫性のある推論プロセスに統合する能力を持っていることが示されている。

関連論文リスト

Human-centered Interactive Learning via MLLMs for Text-to-Image Person Re-identification [26.689580621314576]
外部マルチモーダル知識によるテキストクエリの識別性を高めるための対話型クロスモーダル学習フレームワーク(ICL)を提案する。そこで本研究では,THI(Test-time Humane-centered Interaction)モジュールを提案する。 THIはマルチモーダル大言語モデル(MLLM)に基づいてユーザクエリを洗練し、最高のマッチング画像とのギャップを減らす。
論文参考訳（メタデータ） (2025-05-21T02:26:17Z)
Grounding Task Assistance with Multimodal Cues from a Single Demonstration [17.975173937253494]
MICA(Multimodal Interactive Contextualized Assistance)は、視線と音声の手がかりを統合することで、タスク支援のための会話エージェントを改善するフレームワークである。リアルタイムチャット支援タスク複製から得られる質問に対する評価は,複数モーダルキューがフレームベース検索よりも応答品質を著しく向上することを示している。
論文参考訳（メタデータ） (2025-05-02T20:43:11Z)
SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文参考訳（メタデータ） (2025-04-17T17:59:27Z)
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文参考訳（メタデータ） (2025-03-13T08:43:24Z)
HEISIR: Hierarchical Expansion of Inverted Semantic Indexing for Training-free Retrieval of Conversational Data using LLMs [0.3277163122167434]
本稿では,会話データ検索における意味理解を強化する新しいフレームワークであるHEISIRを紹介する。 Heisir は,(1)階層型トリプレットの定式化と(2)アジュネート・アジュメンテーション(Adjunct Augmentation)という2段階のプロセスを実装し,SVOA(Subject-Verb-Object-Adjunct)四重項からなるセマンティック指標を生成する。実験の結果,HEISIRは様々な埋め込み型や言語モデルにまたがる微調整モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-06T06:39:25Z)
Enhancing Visual Representation for Text-based Person Searching [9.601697802095119]
VFE-TPSは、ビジュアルフィーチャ強化テキストベースのPerson Searchモデルである。基本的なマルチモーダル機能を学ぶために、トレーニング済みのバックボーンCLIPを導入する。 Text Guided Masked Image Modelingタスクを構築し、局所的な視覚的詳細を学習するモデルの能力を強化する。
論文参考訳（メタデータ） (2024-12-30T01:38:14Z)
All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文参考訳（メタデータ） (2024-05-08T01:04:36Z)
Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文参考訳（メタデータ） (2024-03-15T12:44:35Z)
Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。 MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文参考訳（メタデータ） (2024-02-16T16:31:46Z)
Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。 MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文参考訳（メタデータ） (2023-12-28T03:00:19Z)
VILLS -- Video-Image Learning to Learn Semantics for Person Re-Identification [51.89551385538251]
VILLS (Video-Image Learning to Learn Semantics) は画像やビデオから空間的特徴と時間的特徴を共同で学習する自己教師型手法である。 VILLSはまず、意味的一貫性と頑健な空間的特徴を適応的に抽出する局所意味抽出モジュールを設計する。そして、VILLSは、一貫した特徴空間における画像とビデオのモダリティを表現するために、統合された特徴学習および適応モジュールを設計する。
論文参考訳（メタデータ） (2023-11-27T19:30:30Z)
Learning Transferable Pedestrian Representation from Multimodal Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文参考訳（メタデータ） (2023-04-12T01:20:58Z)
Learning Progressive Modality-shared Transformers for Effective Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文参考訳（メタデータ） (2022-12-01T02:20:16Z)
JARVIS: A Neuro-Symbolic Commonsense Reasoning Framework for Conversational Embodied Agents [14.70666899147632]
本稿では,モジュール型,一般化型,解釈可能な対話型エンボディエージェントのためのニューロシンボリック・コモンセンス推論フレームワークを提案する。我々のフレームワークは、ダイアログヒストリー(EDH)、TfD、Two-Agent Task Completion(TATC)を含む3つのダイアログベースの実施タスクに対して、最先端(SOTA)結果を達成する。私たちのモデルは、Alexa Prize SimBot Public Benchmark Challengeで第1位です。
論文参考訳（メタデータ） (2022-08-28T18:30:46Z)
On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文参考訳（メタデータ） (2022-05-24T00:52:40Z)
Semantic Consistency and Identity Mapping Multi-Component Generative Adversarial Network for Person Re-Identification [39.605062525247135]
本稿では,1つのドメインから複数のドメインへのスタイル適応を提供する,意味一貫性とアイデンティティマッピングの多成分生成対向ネットワーク(SC-IMGAN)を提案する。提案手法は,6つの挑戦的人物リidデータセットにおける最先端技術よりも優れている。
論文参考訳（メタデータ） (2021-04-28T14:12:29Z)
Cross-Resolution Adversarial Dual Network for Person Re-Identification and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文参考訳（メタデータ） (2020-02-19T07:21:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。