論文の概要: Referring to Any Person
- arxiv url: http://arxiv.org/abs/2503.08507v1
- Date: Tue, 11 Mar 2025 14:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:35.939195
- Title: Referring to Any Person
- Title(参考訳): 人への参照
- Authors: Qing Jiang, Lin Wu, Zhaoyang Zeng, Tianhe Ren, Yuda Xiong, Yihao Chen, Qin Liu, Lei Zhang,
- Abstract要約: 既存のモデルは現実のユーザビリティを達成できず、現在のベンチマークは1対1の参照に集中することによって制限される。
我々は、これらの課題に対処し、現実世界のアプリケーションをよりよく反映するように設計された、新しいデータセットであるHumanRefを紹介します。
モデル設計の観点からは、マルチモーダルな大規模言語モデルとオブジェクト検出フレームワークを統合し、RexSeekという名前の堅牢な参照モデルを構築する。
- 参考スコア(独自算出の注目度): 15.488874769107092
- License:
- Abstract: Humans are undoubtedly the most important participants in computer vision, and the ability to detect any individual given a natural language description, a task we define as referring to any person, holds substantial practical value. However, we find that existing models generally fail to achieve real-world usability, and current benchmarks are limited by their focus on one-to-one referring, that hinder progress in this area. In this work, we revisit this task from three critical perspectives: task definition, dataset design, and model architecture. We first identify five aspects of referable entities and three distinctive characteristics of this task. Next, we introduce HumanRef, a novel dataset designed to tackle these challenges and better reflect real-world applications. From a model design perspective, we integrate a multimodal large language model with an object detection framework, constructing a robust referring model named RexSeek. Experimental results reveal that state-of-the-art models, which perform well on commonly used benchmarks like RefCOCO/+/g, struggle with HumanRef due to their inability to detect multiple individuals. In contrast, RexSeek not only excels in human referring but also generalizes effectively to common object referring, making it broadly applicable across various perception tasks. Code is available at https://github.com/IDEA-Research/RexSeek
- Abstract(参考訳): 人間は間違いなくコンピュータビジョンにおいて最も重要な参加者であり、自然言語の記述を与えられた個人を検知する能力は、我々の定義するタスクは、事実上の実用的価値を持っている。
しかし、既存のモデルでは現実のユーザビリティが得られず、現在のベンチマークは1対1の参照に重点を置いているため、この分野の進歩を妨げている。
本研究では、タスク定義、データセット設計、モデルアーキテクチャという3つの重要な視点から、このタスクを再考する。
まず、参照可能なエンティティの5つの側面と、このタスクの3つの特徴を識別する。
次に、これらの課題に対処し、現実世界のアプリケーションをよりよく反映するように設計された、新しいデータセットであるHumanRefを紹介します。
モデル設計の観点からは、マルチモーダルな大規模言語モデルとオブジェクト検出フレームワークを統合し、RexSeekという名前の堅牢な参照モデルを構築する。
実験結果から、RefCOCO/+/gのような一般的なベンチマークでうまく機能する最先端のモデルは、複数の個人を検出できないため、HumanRefと競合することが明らかとなった。
対照的に、RexSeekは人間の参照に優れるだけでなく、共通のオブジェクト参照に効果的に一般化し、様々な知覚タスクに広く適用できる。
コードはhttps://github.com/IDEA-Research/RexSeekで入手できる。
関連論文リスト
- RefHCM: A Unified Model for Referring Perceptions in Human-Centric Scenarios [60.772871735598706]
RefHCM(Referring Human-Centric Model)は、人間中心の幅広い参照タスクを統合するためのフレームワークである。
RefHCMは、画像、テキスト、座標、パースマップを含む生のマルチモーダルデータをセマンティックトークンに変換するためにシーケンスマージを採用している。
この研究は、一般的なフレームワークで人間の知覚を参照しようとする最初の試みである。
論文 参考訳(メタデータ) (2024-12-19T08:51:57Z) - Towards Unified Benchmark and Models for Multi-Modal Perceptual Metrics [37.86612817818566]
CLIPや大規模マルチモーダルモデル(LMM)などの汎用視覚言語モデルは、ゼロショット知覚メトリクスとして適用することができる。
提案するUniSim-Benchは、7つのマルチモーダルな知覚的類似性タスクと合計25のデータセットを包含するベンチマークである。
我々の評価では、汎用モデルは平均的に合理的に機能するが、個々のタスクの特化モデルに遅れが生じることが多い。
論文 参考訳(メタデータ) (2024-12-13T22:38:09Z) - Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse [9.542503507653494]
CoT(Chain-of-Thought)は、大規模言語やマルチモーダルモデルを扱う上で広く使われている戦略である。
認知心理学からインスピレーションを得て,CoTが性能を低下させるタスクの特徴を同定する。
予測時間推論を用いた場合,多種多様な最先端モデル群が性能低下を示すことが判明した。
論文 参考訳(メタデータ) (2024-10-27T18:30:41Z) - HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks [25.959032350818795]
人間のアノテーションによるコーディングタスクのベンチマークであるHumanEval-Vを提案する。
各タスクは、関数シグネチャとテストケースを組み合わせた、慎重に構築されたダイアグラムを備えている。
トップパフォーマンスモデルでさえ、控えめな成功率を実現しています。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。