Fugu-MT 論文翻訳(概要): ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search

論文の概要: ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search

arxiv url: http://arxiv.org/abs/2604.12762v1
Date: Tue, 14 Apr 2026 14:06:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.480386
Title: ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search
Title（参考訳）: ARGOS: エージェントによるマルチカメラによる人物の検索
Authors: Myungchul Kim, Kwanyong Park, Junmo Kim, In So Kweon,
Abstract要約: 我々は,対話型推論問題として,マルチカメラの人物探索を再構成する最初のベンチマークとフレームワークであるARGOSを紹介する。 ARGOSエージェントはあいまいな目撃声明を受け取り、何を尋ねるか、いつ空間的または時間的ツールを呼び出すか、不明瞭な応答をどう解釈するかを判断しなければならない。このベンチマークは、意味的知覚(Who)、空間的推論(Where)、時間的推論(When)の3つのプログレッシブトラックにおいて、14の現実世界シナリオにまたがる2,691のタスクからなる。
参考スコア（独自算出の注目度）: 49.61286310968402
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce ARGOS, the first benchmark and framework that reformulates multi-camera person search as an interactive reasoning problem requiring an agent to plan, question, and eliminate candidates under information asymmetry. An ARGOS agent receives a vague witness statement and must decide what to ask, when to invoke spatial or temporal tools, and how to interpret ambiguous responses, all within a limited turn budget. Reasoning is grounded in a Spatio-Temporal Topology Graph (STTG) encoding camera connectivity and empirically validated transition times. The benchmark comprises 2,691 tasks across 14 real-world scenarios in three progressive tracks: semantic perception (Who), spatial reasoning (Where), and temporal reasoning (When). Experiments with four LLM backbones show the benchmark is far from solved (best TWS: 0.383 on Track 2, 0.590 on Track 3), and ablations confirm that removing domain-specific tools drops accuracy by up to 49.6 percentage points.
Abstract（参考訳）: 我々は、エージェントが情報非対称性の下で候補を計画、質問、排除することを必要とする対話的推論問題として、マルチカメラの人物探索を再構成する最初のベンチマークおよびフレームワークであるARGOSを紹介する。 ARGOSエージェントは、あいまいな目撃声明を受け取り、何を求めるか、空間的または時間的ツールをいつ呼び出すか、不明瞭な応答をどう解釈するかを、すべて限られた予算内で決めなければならない。推論は、カメラ接続と経験的に検証された遷移時間を符号化した時空間トポロジーグラフ(STTG)に基礎を置いている。このベンチマークは、意味的知覚(Who)、空間的推論(Where)、時間的推論(When)の3つのプログレッシブトラックで、14の現実世界シナリオにまたがる2,691のタスクで構成されている。 4つのLCMバックボーンによる実験では、ベンチマークは解決には程遠い(TWS:0.383 on Track 2, 0.590 on Track 3)。

論文の概要: ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search

関連論文リスト