論文の概要: DINO-Explorer: Active Underwater Discovery via Ego-Motion Compensated Semantic Predictive Coding
- arxiv url: http://arxiv.org/abs/2604.12933v1
- Date: Tue, 14 Apr 2026 16:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.559417
- Title: DINO-Explorer: Active Underwater Discovery via Ego-Motion Compensated Semantic Predictive Coding
- Title(参考訳): DINO-Explorer:Ego-Motion補償セマンティック予測符号化による水中の能動的発見
- Authors: Yuhan Jin, Nayari Marie Lessa, Mariela De Lucas Alvarez, Melvin Laux, Lucas Amparo Barbosa, Frank Kirchner, Rebecca Adam,
- Abstract要約: 連続的なセマンティック・サプライズ信号によって駆動される新しい認識フレームワークであるDINO-Explorerを提案する。
一定の運用レベルでは、システムは発見後の人間と視聴者のコンセンサスイベントの78.8%を保持している。
エゴモーション条件付けは、未補償のサプライズ信号ベースラインに対する偽陽性の45.5%を抑制する。
- 参考スコア(独自算出の注目度): 4.341329754284676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Marine ecosystem degradation necessitates continuous, scientifically selective underwater monitoring. However, most autonomous underwater vehicles (AUVs) operate as passive data loggers, capturing exhaustive video for offline review and frequently missing transient events of high scientific value. Transitioning to active perception requires a causal, online signal that highlights significant phenomena while suppressing maneuver-induced visual changes. We propose DINO-Explorer, a novelty-aware perception framework driven by a continuous semantic surprise signal. Operating within the latent space of a frozen DINOv3 foundation model, it leverages a lightweight, action-conditioned recurrent predictor to anticipate short-horizon semantic evolution. An efference-copy-inspired module utilizes globally pooled optical flow to discount self-induced visual changes without suppressing genuine environmental novelty. We evaluate this signal on the downstream task of asynchronous event triage under variant telemetry constraints. Results demonstrate that DINO-Explorer provides a robust, bandwidth-efficient attention mechanism. At a fixed operating point, the system retains 78.8% of post-discovery human-reviewer consensus events with a 56.8% trigger confirmation rate, effectively surfacing mission-relevant phenomena. Crucially, ego-motion conditioning suppresses 45.5% of false positives relative to an uncompensated surprise signal baseline. In a replay-side Pareto ablation study, DINO-Explorer robustly dominates the validated peak F1 versus telemetry bandwidth frontier, reducing telemetry bandwidth by 48.2% at the selected operating point while maintaining a 62.2% peak F1 score, successfully concentrating data transmission around human-verified novelty events.
- Abstract(参考訳): 海洋生態系の劣化は、連続的で科学的に選択的な水中モニタリングを必要とする。
しかし、ほとんどの自律型水中車両(AUV)は受動的データロガーとして機能し、オフラインレビューのために徹底的なビデオをキャプチャし、科学的価値の高い過渡的なイベントを頻繁に欠いている。
能動的知覚への遷移には因果的なオンライン信号が必要であり、操作によって引き起こされる視覚変化を抑えながら重要な現象を強調させる。
連続的なセマンティック・サプライズ信号によって駆動される新しい認識フレームワークであるDINO-Explorerを提案する。
凍結したDINOv3ファンデーションモデルの潜在空間内で動作し、軽量で動作条件付きリカレント予測器を利用して、短期水平セマンティック進化を予測している。
エラーコピーにインスパイアされたモジュールは、プールされた光の流れを利用して、真の環境のノベルティを抑えることなく、自己誘発的な視覚変化を抑える。
可変テレメトリ制約の下で、非同期イベントトリアージの下流タスクにおいて、この信号を評価する。
DINO-Explorerはロバストで帯域効率の高いアテンションメカニズムを提供する。
一定の運用点において、このシステムは、発見後の人間-視聴者のコンセンサスイベントの78.8%を保持し、56.8%のトリガー確認率を持ち、ミッション関連現象を効果的に克服している。
重要なことに、エゴモーション条件付けは、補償されていないサプライズ信号のベースラインに対する偽陽性の45.5%を抑える。
リプレイサイドのParetoアブレーションスタディでは、DINO-Explorerが検証済みピークF1とテレメトリ帯域フロンティアを強く支配し、選択された動作ポイントでテレメトリ帯域幅を48.2%削減し、62.2%のピークF1スコアを維持し、人間の検証されたノベルティイベントに関するデータ送信に集中させることに成功した。
関連論文リスト
- LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - Enhancing Eye Feature Estimation from Event Data Streams through Adaptive Inference State Space Modeling [68.1289208938377]
イベントベースのデータストリームから目の特徴抽出を効率的かつ低エネルギーで行うことができる。
本稿では,特徴抽出のための新しいアーキテクチャである強調型推論状態空間モデル(AISSM)を紹介する。
また、トレーニング効率を向上させる新しい学習手法を開発・評価する。
論文 参考訳(メタデータ) (2026-03-14T18:47:08Z) - Modeling Information Blackouts in Missing Not-At-Random Time Series Data [0.0]
大規模な交通予測は、しばしばブラックアウトを示す固定センサーネットワークに依存している。
本稿では,線形力学系による交通力学を協調的にモデル化する潜在状態空間フレームワークを提案する。
明示的なMNARモデリングは、実際のデータに対して一貫したがより小さな改善を提供する。
論文 参考訳(メタデータ) (2026-01-04T11:03:13Z) - IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation [56.43007596544299]
IndustryNavは、アクティブな空間推論のための最初の動的産業用ナビゲーションベンチマークである。
9つの最先端のVisual Large Language Modelsの研究によると、クローズドソースモデルは一貫した優位性を維持している。
論文 参考訳(メタデータ) (2025-11-21T16:48:49Z) - Sequence-Preserving Dual-FoV Defense for Traffic Sign and Light Recognition in Autonomous Vehicles [0.07646713951724012]
本研究では,米国における信号機と信号機のための二重FoV,シーケンス保存型ロバストネスフレームワークを提案する。
実生活における異常検出の応用に関する一連の実験において、本研究では、統一された3層防御スタックフレームワークの概要を概説する。
論文 参考訳(メタデータ) (2025-10-03T00:43:25Z) - Temporal Misalignment Attacks against Multimodal Perception in Autonomous Driving [23.83773255227831]
DejaVuは車載ネットワークを利用して、センサストリーム間の遅延を誘導し、微妙な時間的ミスアライメントを生成する攻撃である。
包括的攻撃分析により,センサのタスク特異的な不均衡感が明らかになった。
シングルフレームのLiDAR遅延では、攻撃者は車検出のmAPを最大88.5%削減し、3フレームのカメラ遅延、車滴の多重物体追跡精度(MOTA)を73%削減できる。
論文 参考訳(メタデータ) (2025-07-12T00:44:26Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Enhancing Reliability in Federated mmWave Networks: A Practical and
Scalable Solution using Radar-Aided Dynamic Blockage Recognition [14.18507067281377]
本稿では,ミリ波(mmWave)およびテラヘルツ(THz)ネットワークサービスの動的屋外環境における信頼性向上のための新しい手法を提案する。
これらの設定では、人や車などの障害物を動かすことで、視線接続(LoS)が簡単に中断される。
提案手法はRadar-Aided Blockage Dynamic Recognition (RaDaR)と呼ばれ、レーダー計測とフェデレートラーニング(FL)を活用して、二重出力ニューラルネットワーク(NN)モデルをトレーニングする。
論文 参考訳(メタデータ) (2023-06-22T10:10:25Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。