論文の概要: ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search
- arxiv url: http://arxiv.org/abs/2604.12762v1
- Date: Tue, 14 Apr 2026 14:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.480386
- Title: ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search
- Title(参考訳): ARGOS: エージェントによるマルチカメラによる人物の検索
- Authors: Myungchul Kim, Kwanyong Park, Junmo Kim, In So Kweon,
- Abstract要約: 我々は,対話型推論問題として,マルチカメラの人物探索を再構成する最初のベンチマークとフレームワークであるARGOSを紹介する。
ARGOSエージェントはあいまいな目撃声明を受け取り、何を尋ねるか、いつ空間的または時間的ツールを呼び出すか、不明瞭な応答をどう解釈するかを判断しなければならない。
このベンチマークは、意味的知覚(Who)、空間的推論(Where)、時間的推論(When)の3つのプログレッシブトラックにおいて、14の現実世界シナリオにまたがる2,691のタスクからなる。
- 参考スコア(独自算出の注目度): 49.61286310968402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ARGOS, the first benchmark and framework that reformulates multi-camera person search as an interactive reasoning problem requiring an agent to plan, question, and eliminate candidates under information asymmetry. An ARGOS agent receives a vague witness statement and must decide what to ask, when to invoke spatial or temporal tools, and how to interpret ambiguous responses, all within a limited turn budget. Reasoning is grounded in a Spatio-Temporal Topology Graph (STTG) encoding camera connectivity and empirically validated transition times. The benchmark comprises 2,691 tasks across 14 real-world scenarios in three progressive tracks: semantic perception (Who), spatial reasoning (Where), and temporal reasoning (When). Experiments with four LLM backbones show the benchmark is far from solved (best TWS: 0.383 on Track 2, 0.590 on Track 3), and ablations confirm that removing domain-specific tools drops accuracy by up to 49.6 percentage points.
- Abstract(参考訳): 我々は、エージェントが情報非対称性の下で候補を計画、質問、排除することを必要とする対話的推論問題として、マルチカメラの人物探索を再構成する最初のベンチマークおよびフレームワークであるARGOSを紹介する。
ARGOSエージェントは、あいまいな目撃声明を受け取り、何を求めるか、空間的または時間的ツールをいつ呼び出すか、不明瞭な応答をどう解釈するかを、すべて限られた予算内で決めなければならない。
推論は、カメラ接続と経験的に検証された遷移時間を符号化した時空間トポロジーグラフ(STTG)に基礎を置いている。
このベンチマークは、意味的知覚(Who)、空間的推論(Where)、時間的推論(When)の3つのプログレッシブトラックで、14の現実世界シナリオにまたがる2,691のタスクで構成されている。
4つのLCMバックボーンによる実験では、ベンチマークは解決には程遠い(TWS:0.383 on Track 2, 0.590 on Track 3)。
関連論文リスト
- GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents [4.920953895710103]
本稿では,エージェント中心の認識と推論をビデオ理解を通じて評価するフレームワークであるGameplayQAを紹介する。
我々は,自己,他エージェント,世界という三進的システムを中心に構築された状態,行動,イベントの同時キャプションを同期した,1.22ラベル/秒のマルチプレイヤー3Dゲームプレイビデオを高密度に注釈付けする。
これらのアノテーションを用いて,3段階の認知複雑性に分類された2.4Kの診断QAペアを改良し,構造的障害分類を行った。
論文 参考訳(メタデータ) (2026-03-25T14:10:45Z) - OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-10T17:56:07Z) - Relations, Negations, and Numbers: Looking for Logic in Generative Text-to-Image Models [0.5461938536945723]
関係、否定、離散数という3種類の論理作用素について検討する。
人的合意のスコアが50%を超えることは確実ではない。
本稿では,マルチモーダル学習システムに固有の制約について論じる。
論文 参考訳(メタデータ) (2024-11-26T03:06:52Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。