論文の概要: LLaVA-ReID: Selective Multi-image Questioner for Interactive Person Re-Identification
- arxiv url: http://arxiv.org/abs/2504.10174v2
- Date: Tue, 15 Apr 2025 07:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:18.164211
- Title: LLaVA-ReID: Selective Multi-image Questioner for Interactive Person Re-Identification
- Title(参考訳): LLaVA-ReID:対話型人物再同定のための選択的マルチイメージ質問者
- Authors: Yiding Lu, Mouxing Yang, Dezhong Peng, Peng Hu, Yijie Lin, Xi Peng,
- Abstract要約: 対話型人物再識別(Inter-ReID)という新しいタスクを導入する。
Inter-ReIDは対話に基づく検索タスクであり、目撃者との対話を通じて初期記述を反復的に洗練する。
LLaVA-ReIDは,視覚的およびテキスト的コンテキストに基づいて,対象とする質問を生成する質問モデルである。
- 参考スコア(独自算出の注目度): 23.629373698103212
- License:
- Abstract: Traditional text-based person ReID assumes that person descriptions from witnesses are complete and provided at once. However, in real-world scenarios, such descriptions are often partial or vague. To address this limitation, we introduce a new task called interactive person re-identification (Inter-ReID). Inter-ReID is a dialogue-based retrieval task that iteratively refines initial descriptions through ongoing interactions with the witnesses. To facilitate the study of this new task, we construct a dialogue dataset that incorporates multiple types of questions by decomposing fine-grained attributes of individuals. We further propose LLaVA-ReID, a question model that generates targeted questions based on visual and textual contexts to elicit additional details about the target person. Leveraging a looking-forward strategy, we prioritize the most informative questions as supervision during training. Experimental results on both Inter-ReID and text-based ReID benchmarks demonstrate that LLaVA-ReID significantly outperforms baselines.
- Abstract(参考訳): 従来のテキストベースの人物であるReIDは、証人からの人物の記述が完成し、一度に提供されると仮定する。
しかし、現実のシナリオでは、そのような記述はしばしば部分的であるか曖昧である。
この制限に対処するため、対話的人物再識別(Inter-ReID)と呼ばれる新しいタスクを導入する。
Inter-ReIDは対話に基づく検索タスクであり、目撃者との対話を通じて初期記述を反復的に洗練する。
本研究は,複数種類の質問を個別の微粒な属性を分解し,複数の質問を組み込んだ対話データセットを構築した。
LLaVA-ReIDは,視覚的・テキスト的文脈に基づく質問生成モデルであり,対象者に関する追加的詳細を抽出する。
フォワード戦略を活用することで、トレーニング中の最も情報に富む質問を指導として優先順位付けする。
Inter-ReIDとテキストベースのReIDベンチマークの実験結果から、LLaVA-ReIDはベースラインを著しく上回ることが示された。
関連論文リスト
- REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Enhancing Answer Attribution for Faithful Text Generation with Large Language Models [5.065947993017158]
本稿では,より独立的で文脈的なクレームを生成できる新しい手法を提案する。
新しい手法が評価され,回答帰属成分の性能が向上することが示されている。
論文 参考訳(メタデータ) (2024-10-22T15:37:46Z) - P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.08478298711789]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。
自然言語命令は明示的なタスクプランニングを欠くことが多い。
タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文 参考訳(メタデータ) (2024-09-17T15:29:34Z) - Venn Diagram Prompting : Accelerating Comprehension with Scaffolding Effect [0.0]
本稿ではVenn Diagram (VD) Promptingを紹介した。これはLLM(Large Language Models)が文書間で情報を組み合わせて合成できる革新的なプロンプト技術である。
提案手法は,LLMの固有位置バイアスを除去し,入力情報のシーケンスに対する感度を除去し,回答の一貫性を高めることを目的としている。
4つの公開ベンチマークの問合せデータセットで実施された実験では、VDは連続的に一致したり、巧妙に製作された命令プロンプトのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2024-06-08T06:27:26Z) - Instruct-ReID++: Towards Universal Purpose Instruction-Guided Person Re-identification [62.894790379098005]
本稿では,与えられた画像や言語命令に従って,モデルに画像の検索を要求する新しい命令-ReIDタスクを提案する。
Instruct-ReIDは一般的なReID設定の最初の探索であり、既存の6つのReIDタスクを異なる命令を割り当てることで特別なケースとして見ることができる。
本稿では,新しいベースラインモデル IRM を提案する。
論文 参考訳(メタデータ) (2024-05-28T03:35:46Z) - Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - Multimodal Inverse Cloze Task for Knowledge-based Visual Question
Answering [4.114444605090133]
名前付きエンティティに関する知識に基づく視覚質問応答のための事前学習手法であるMultimodal Inverse Cloze Taskを提案する。
KVQAEは最近導入されたタスクで、知識ベースを使用して視覚的コンテキストに接地された名前付きエンティティに関する質問に答える。
提案手法は異なるニューラルネットワークアーキテクチャに適用可能であり, 9%の相対MRR, 15%の相対F1ゲインが検索および読解に有効である。
論文 参考訳(メタデータ) (2023-01-11T09:16:34Z) - Part2Whole: Iteratively Enrich Detail for Cross-Modal Retrieval with
Partial Query [25.398090300086302]
本稿では,この問題に対処する対話型検索フレームワークPart2Wholeを提案する。
Interactive Retrieval Agentは、初期クエリを洗練するための最適なポリシーを構築するために訓練される。
テキスト画像データセット以外の人手による注釈データを必要としない弱教師付き強化学習法を提案する。
論文 参考訳(メタデータ) (2021-03-02T11:27:05Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。