論文の概要: AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos
- arxiv url: http://arxiv.org/abs/2603.07758v1
- Date: Sun, 08 Mar 2026 18:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.197535
- Title: AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos
- Title(参考訳): AR2-4FV:固定視点ビデオにおける長期グラウンドのアンコールと再識別
- Authors: Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong,
- Abstract要約: 固定ビュービデオの長期的言語誘導参照は困難である。
AR2-4FVは長期参照に背景安定性を利用する。
アンカーベースの再突入前の再捕獲、アクセラレーション、ライトウェイトなReID-ゲーティング機構はアイデンティティの連続性を維持する。
- 参考スコア(独自算出の注目度): 9.133770312965082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term language-guided referring in fixed-view videos is challenging: the referent may be occluded or leave the scene for long intervals and later re-enter, while framewise referring pipelines drift as re-identification (ReID) becomes unreliable. AR2-4FV leverages background stability for long-term referring. An offline Anchor Bank is distilled from static background structures; at inference, the text query is aligned with this bank to produce an Anchor Map that serves as persistent semantic memory when the referent is absent. An anchor-based re-entry prior accelerates re-capture upon return, and a lightweight ReID-Gating mechanism maintains identity continuity using displacement cues in the anchor frame. The system predicts per-frame bounding boxes without assuming the target is visible in the first frame or explicitly modeling appearance variations. AR2-4FV achieves +10.3% Re-Capture Rate (RCR) improvement and -24.2% Re-Capture Latency (RCL) reduction over the best baseline, and ablation studies further confirm the benefits of the Anchor Map, re-entry prior, and ReID-Gating.
- Abstract(参考訳): 固定ビュービデオにおける長期の言語誘導参照は困難である: 参照者は閉鎖されるか、長い間隔でシーンを離れ、後に再入場する可能性があるが、フレーム的にパイプラインを参照することは再識別(ReID)としてドリフトされる。
AR2-4FVは長期参照に背景安定性を利用する。
オフラインのアンカーバンクは静的な背景構造から蒸留され、推論時にこのバンクとテキストクエリが一致し、参照が存在しないときに永続的なセマンティックメモリとして機能するアンカーマップを生成する。
アンカーベースの再突入前は帰還時に再捕獲を加速し、軽量なReIDゲーティング機構はアンカーフレーム内の変位キューを用いてアイデンティティの連続性を維持する。
システムは、ターゲットが第1フレームで見えると仮定したり、外観の変化を明示的にモデル化することなく、フレーム単位のバウンディングボックスを予測する。
AR2-4FVは、RCR(Re-Capture Rate)の改善が+10.3%、RCL(Re-Capture Latency)が-24.2%となり、Anchor Map、Re-entry prior、ReID-Gatingの利点がさらに確認された。
関連論文リスト
- LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change [52.46888249268445]
長期の環境モニタリングには、数ヶ月または数年ごとに分割された繰り返しサイト訪問で3Dモデルを再構築し調整する機能が必要である。
既存のアプローチは、独立して再構築されたセッションのポストホックアライメントに依存している。
我々は,共同SfM再建において,クロスセッション対応を直接実施することを提案する。
論文 参考訳(メタデータ) (2026-02-24T06:12:51Z) - Detector-in-the-Loop Tracking: Active Memory Rectification for Stable Glottic Opening Localization [25.593059138669844]
本稿では,信頼性に整合した状態決定とアクティブメモリの整合性により,Segment Anything Model 2(SAM2)を監督する検出・イン・ザ・ループフレームワークを提案する。
緊急挿管ビデオでは、CL-MCは最先端のパフォーマンスを達成し、ドリフトと欠落率を大幅に低減する。
論文 参考訳(メタデータ) (2026-02-22T23:29:28Z) - Continuum Memory Architectures for Long-Horizon LLM Agents [0.0]
Retrieval-augmented Generation (RAG) は、文脈知識を備えた大規模言語モデル(LLM)エージェントのデフォルト戦略となっている。
textitContinuum Memory Architecture (CMA)は、インタラクション間の内部状態をメンテナンスし、更新するシステムのクラスです。
我々は、RAGの構造的欠如が記憶の蓄積、突然変異、曖昧さを露呈するタスクに対して、一貫した振る舞い上の利点を示す。
論文 参考訳(メタデータ) (2026-01-14T22:40:35Z) - Bi-C2R: Bidirectional Continual Compatible Representation for Re-indexing Free Lifelong Person Re-identification [77.07028925223383]
L-ReID(Lifelong person Re-IDentification)は、シーケンシャルに収集されたデータを利用して、ReIDモデルを継続的にトレーニングし、更新する。
既存のL-ReIDメソッドは通常、更新毎に推論のためにすべての歴史的なギャラリーイメージの新機能を再抽出し、"re-indexing"と呼ばれる。
本稿では, 生涯にわたる人物再識別を行うために, 過去のギャラリー画像を再インデックスすることなく, 生涯にわたる人物再識別を行う「Re-index Free Lifelong person Re-IDentification (RFL-ReID)」というタスクに焦点を当てる。
論文 参考訳(メタデータ) (2025-12-31T17:50:05Z) - Remember Me: Bridging the Long-Range Gap in LVLMs with Three-Step Inference-Only Decay Resilience Strategies [11.330811445575677]
LVLM(Large Vision-Language Models)は、様々なタスクにおいて優れたパフォーマンスを実現している。
ロータリー位置決定(Rotary Positional Decay)の使用下では、長距離依存関係をモデル化する上で、依然として重要な課題に直面している。
この問題を軽減するため,T-DRS(Three-step Decay Resilience Strategies)を提案する。
論文 参考訳(メタデータ) (2025-11-13T01:59:39Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Cloth-Changing Person Re-identification from A Single Image with Gait
Prediction and Regularization [65.50321170655225]
本稿では,画像レイドモデルを用いて布非依存表現を学習するための補助タスクとして,歩行認識を導入する。
画像ベースのCloth-Changing ReIDベンチマーク(例えば、LTCC、PRCC、Real28、VC-Clothes)の実験は、GI-ReIDが最先端技術に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2021-03-29T12:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。