論文の概要: PInVerify: An Offline Embodied Benchmark for Active Instance Verification
- arxiv url: http://arxiv.org/abs/2605.30639v1
- Date: Thu, 28 May 2026 22:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.277125
- Title: PInVerify: An Offline Embodied Benchmark for Active Instance Verification
- Title(参考訳): PInVerify: アクティブインスタンス検証のためのオフライン実施ベンチマーク
- Authors: Yuhang Jiang,
- Abstract要約: エージェントは対象物へのナビゲートに強い進歩を遂げているが、目標付近に到達しても、エージェントが正しいインスタンスを見つけたことを保証していない。
このギャップを、エージェントが候補オブジェクトの周囲の視点を積極的に選択し、それがきめ細かい自然言語記述と一致するかどうかを判断するタスクであるActive Instance Verification (AIV)で解決する。
我々は、AIVのオフライン実施ベンチマークであるPInVerifyを紹介した。18のオブジェクトカテゴリにわたる3000の評価エピソードは、マルチビューキャプチャとして配信される。
- 参考スコア(独自算出の注目度): 8.403971471573607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied agents have made strong progress in navigating to target objects, but reaching the goal vicinity does not guarantee that the agent has found the correct instance: subtle attribute differences (e.g., "white floral" vs. "white striped") often require close-range, multi-view inspection. We address this gap with Active Instance Verification (AIV), a task in which an agent actively selects viewpoints around a candidate object to decide whether it matches a fine-grained natural-language description. We formalize AIV as a finite-horizon decision process and introduce PInVerify, an offline embodied benchmark for AIV: 3,000 evaluation episodes across 18 object categories, delivered as multi-view captures with a 6-sector navigation topology that exposes trap views (navigable but uninformative) and unreachable sectors. As reference baselines we build a training-free pipeline and a LoRA-fine-tuned end-to-end agent around open-source multimodal large language models (MLLMs) at on-device scale ($\leq$8B parameters), with attribute decomposition, a visibility-weighted multi-view tracker, and three next-best-view (NBV) strategies. In our evaluation across Qwen3-VL (4B/8B), SenseNova-SI-1.2-InternVL3-8B, CLIP, and SigLIP2, the best MLLM-based baseline exceeds the best embedding baseline by 4.9 pp; GT-box ablations show a +3.1 pp detection gap; and we do not observe reliable gains from active viewpoint selection within the tested NBV strategies. A LoRA-fine-tuned agent (SFT+GSPO) reaches 85.6%. PInVerify aims to support further work on active, fine-grained semantic verification in embodied AI. Code: https://github.com/Avalon-S/PInVerify.
- Abstract(参考訳): 身体的エージェントは対象物へのナビゲートに大きく進歩してきたが、目標付近に到達すると、エージェントが正しいインスタンスを発見したことは保証されない:微妙な属性差(例えば、白い花柄と白いストライプ)は、しばしば近距離で多視点検査を必要とする。
このギャップを、エージェントが候補オブジェクトの周囲の視点を積極的に選択し、それがきめ細かい自然言語記述と一致するかどうかを判断するタスクであるActive Instance Verification (AIV)で解決する。
我々は、AIVを有限水平決定プロセスとして定式化し、AIVのオフライン実施ベンチマークであるPInVerifyを紹介した。
リファレンスベースラインとして、トレーニング不要のパイプラインと、オープンソースのマルチモーダル大言語モデル(MLLM)をオンデバイススケール($\leq$8Bパラメータ)で構成するLoRA-fine-tuned end-to-endエージェントを、属性分解、可視性に富んだマルチビュートラッカー、そして3つのNBV戦略で構築しています。
Qwen3-VL (4B/8B), SenseNova-SI-1.2-InternVL3-8B, CLIP, SigLIP2 における評価では, MLLM ベースラインが最高の埋め込みベースラインを4.9pp, GT-box アブレーションは+3.1pp, テストされた NBV 戦略におけるアクティブ視点選択による信頼性の高い利得は得られなかった。
LoRA-fine-tuned agent (SFT+GSPO) は85.6%に達する。
PInVerifyは、組み込みAIにおけるアクティブできめ細かいセマンティック検証のさらなる作業を支援することを目的としている。
コード:https://github.com/Avalon-S/PInVerify
関連論文リスト
- AnomalyClaw: A Universal Visual Anomaly Detection Agent via Tool-Grounded Refutation [40.254835073578484]
AnomalyClawは、トレーニング不要な視覚異常検出剤である。
異常判定を多ラウンドの給油プロセスに変換する。
単一ステップの直接推論よりも一貫したマクロAUROC改善を実現している。
論文 参考訳(メタデータ) (2026-05-11T11:40:07Z) - COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm [59.26203051651017]
C-TAOはOpen-Vocabulary Multi-Object Tracking (OVMOT)のための最初の連続アノテーション付きトレーニングセットである
フレームワークボトルネックに対するCOVTrack++は,3つのモジュールによる検出とアソシエーションの双方向相互機構を実現するための相乗的フレームワークである。
TAOの実験では、新しいTAAは検証とテストセットで35.4%、30.5%に達し、新しいAssocAは4.8%、新しいLocAは5.8%向上した。
論文 参考訳(メタデータ) (2026-03-25T07:20:27Z) - Synthesizing the Kill Chain: A Zero-Shot Framework for Target Verification and Tactical Reasoning on the Edge [12.201060368447251]
本稿では,コンパクトな視覚言語モデル(VLM)を用いた軽量物体検出を実現する階層型ゼロショットフレームワークを提案する。
我々は,このパイプラインを,偽陽性フィルタリング(100%精度),損傷評価(97.5%),きめ細かい車両分類(55-90%)の3つのタスクで,バトルフィールド6の55個の高忠実合成ビデオ上で評価した。
論文 参考訳(メタデータ) (2026-02-10T23:00:19Z) - Learning to Detect Objects from Multi-Agent LiDAR Scans without Manual Labels [40.571133087275406]
エージェント間で補完的な観察を共有するマルチエージェント協調データセットは、このボトルネックを突破する可能性を秘めている。
外部からのラベルを使わずに、DOtAと呼ばれるマルチエージェントLiDARスキャンからオブジェクトを検出する新しい教師なし手法を提案する。
DOtAはエージェント間の補完的な観察を使用して、プリミティブラベルのマルチスケールエンコーディングを行い、高品質で低品質なラベルをデコードする。
論文 参考訳(メタデータ) (2025-03-11T13:34:35Z) - PointOBB-v3: Expanding Performance Boundaries of Single Point-Supervised Oriented Object Detection [65.84604846389624]
我々は,より強力な単一点制御OODフレームワークであるPointOBB-v3を提案する。
追加のプリミティブなしで擬似回転ボックスを生成し、エンドツーエンドのパラダイムをサポートする。
本手法は従来の最先端手法と比較して3.56%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-01-23T18:18:15Z) - Annotator: A Generic Active Learning Baseline for LiDAR Semantic
Segmentation [40.803251337200656]
Annotatorは汎用的で効率的なアクティブラーニングベースラインである。
ボクセル中心のオンライン選択戦略は、各LiDARスキャン内の正当性と卓越したボクセルギルドを効率よく調査し、注釈付けするように調整されている。
アノテーションは多様な設定で優れており、特にアクティブラーニング(AL)、アクティブソースフリードメイン適応(ASFDA)、アクティブドメイン適応(ADA)に焦点を当てている。
論文 参考訳(メタデータ) (2023-10-31T09:04:39Z) - Exploring Active 3D Object Detection from a Generalization Perspective [58.597942380989245]
不確実性に基づくアクティブな学習ポリシーは、ポイントクラウドの情報性とボックスレベルのアノテーションコストの間のトレードオフのバランスを取れません。
冗長な3次元境界ボックスラベルの点群を階層的にフィルタリングするtextscCrbを提案する。
実験により,提案手法が既存のアクティブラーニング戦略より優れていることが示された。
論文 参考訳(メタデータ) (2023-01-23T02:43:03Z) - VISTA: Boosting 3D Object Detection via Dual Cross-VIew SpaTial
Attention [32.44687996180621]
VISTA(Dual Cross-VIew Spatial Attention)を用いて,グローバル空間コンテキストにおける多視点特徴を適応的に融合する手法を提案する。
The proposed VISTA is a novel plug-and-play fusion module, where in the multi-layer perceptron widely adopted in standard attention module is replaced to a convolutional。
提案手法は,全mAPの63.0%,NDSの69.8%をnuScenesベンチマークで達成し,自転車などの安全基準カテゴリーの最大24%を達成している。
論文 参考訳(メタデータ) (2022-03-18T02:34:59Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - Segment as Points for Efficient Online Multi-Object Tracking and
Segmentation [66.03023110058464]
本稿では,コンパクトな画像表現を非秩序な2次元点クラウド表現に変換することで,セグメントに基づくインスタンス埋め込みの学習に有効な方法を提案する。
本手法は,画像ではなく,ランダムに選択された点から識別インスタンスの埋め込みを学習する,新たなトラッキング・バイ・ポイントのパラダイムを生成する。
PointTrackという名前のオンラインMOTSフレームワークは、最先端のすべてのメソッドを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-07-03T08:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。