論文の概要: Language-in-the-Loop Culvert Inspection on the Erie Canal
- arxiv url: http://arxiv.org/abs/2509.21370v1
- Date: Mon, 22 Sep 2025 17:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.879432
- Title: Language-in-the-Loop Culvert Inspection on the Erie Canal
- Title(参考訳): エリー運河におけるLanguage-in-the-Loop Culvert Inspection
- Authors: Yashom Dighe, Yash Turkar, Karthik Dantu,
- Abstract要約: 1825年に建設されたエリー運河のような運河のカルバートは、安全運転を確保するために頻繁に検査を必要とする。
人間によるカルバートの検査は、年齢、幾何学、照明の質の悪さ、天候、容易なアクセスの欠如により困難である。
我々は,Webスケール視覚言語モデル(VLM)と制約された視点計画とを結合した,エンド・ツー・エンドの言語・イン・ザ・ループ自律システムであるVISIONを紹介した。
- 参考スコア(独自算出の注目度): 6.718749267591075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Culverts on canals such as the Erie Canal, built originally in 1825, require frequent inspections to ensure safe operation. Human inspection of culverts is challenging due to age, geometry, poor illumination, weather, and lack of easy access. We introduce VISION, an end-to-end, language-in-the-loop autonomy system that couples a web-scale vision-language model (VLM) with constrained viewpoint planning for autonomous inspection of culverts. Brief prompts to the VLM solicit open-vocabulary ROI proposals with rationales and confidences, stereo depth is fused to recover scale, and a planner -- aware of culvert constraints -- commands repositioning moves to capture targeted close-ups. Deployed on a quadruped in a culvert under the Erie Canal, VISION closes the see, decide, move, re-image loop on-board and produces high-resolution images for detailed reporting without domain-specific fine-tuning. In an external evaluation by New York Canal Corporation personnel, initial ROI proposals achieved 61.4\% agreement with subject-matter experts, and final post-re-imaging assessments reached 80\%, indicating that VISION converts tentative hypotheses into grounded, expert-aligned findings.
- Abstract(参考訳): 1825年に建設されたエリー運河のような運河のカルバートは、安全運転を確保するために頻繁に検査を必要とする。
人間によるカルバートの検査は、年齢、幾何学、照明の質の悪さ、天候、容易なアクセスの欠如により困難である。
我々は,Webスケール視覚言語モデル(VLM)と制約された視点計画とを結合した,エンド・ツー・エンドの言語・イン・ザ・ループ自律システムであるVISIONを紹介した。
根拠と自信を持ったオープン語彙ROI提案をVLMに要請し、ステレオディープはスケールを回復するために融合し、プランナーは -- 制約を意識して -- ターゲットのクローズアップをキャプチャするための動きを再配置する。
エリー運河の下にある四角形に配置されたVISIONは、シー、決定、移動、再イメージループをオンボードで閉じ、ドメイン固有の微調整なしで詳細なレポートのために高解像度の画像を生成する。
ニューヨーク・カナル・コーポレーションの職員による外部評価では、初期のROI提案は主観的な専門家と61.4\%の合意に達し、最終再画像評価は80\%に達した。
関連論文リスト
- Vision-Based Localization and LLM-based Navigation for Indoor Environments [4.58063394223487]
本研究では,大規模言語モデル(LLM)に基づくナビゲーションと視覚的ローカライゼーションを統合した屋内ローカライゼーションとナビゲーション手法を提案する。
このモデルは、制限された視聴条件下であっても、テストされた全てのウェイポイントに対して高い信頼性と96%の精度を実現した。
本研究は、オフザシェルフカメラと一般公開フロアプランを用いた、スケーラブルでインフラストラクチャフリーな屋内ナビゲーションの可能性を示す。
論文 参考訳(メタデータ) (2025-08-11T15:59:09Z) - FASTopoWM: Fast-Slow Lane Segment Topology Reasoning with Latent World Models [53.91899980806139]
レーンセグメント推論は、総合的な鳥眼ビュー(BEV)ロードシーン理解を提供する。
ストリームベースの時間的伝搬法は,クエリレベルとBEVレベルの両方に時間的手がかりを組み込むことで,有望な結果を示した。
FASTopoWMは、潜在世界モデルで拡張された新しい高速スローレーンセグメント推論フレームワークである。
論文 参考訳(メタデータ) (2025-07-31T08:12:56Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z) - Excision And Recovery: Visual Defect Obfuscation Based Self-Supervised
Anomaly Detection Strategy [1.0358639819750703]
エキシジョン・アンド・リカバリ(EAR)と呼ばれる新しいリコンストラクション・バイ・インペインティング手法を提案する。
EARは、ImageNetで事前訓練されたDINO-ViTとヒント提供のための視覚的難読化に基づいて、単一の決定論的マスキングを特徴としている。
提案手法は,ニューラルネットワーク構造の変化を伴わずに,高い異常検出性能を実現する。
論文 参考訳(メタデータ) (2023-10-06T04:40:48Z) - The RoboDepth Challenge: Methods and Advancements Towards Robust Depth Estimation [97.63185634482552]
我々は,RoboDepth Challengeの優勝ソリューションを要約する。
この課題は、堅牢なOoD深度推定を容易にし、前進させるように設計された。
この課題が、堅牢で信頼性の高い深度推定に関する将来の研究の基盤となることを願っている。
論文 参考訳(メタデータ) (2023-07-27T17:59:56Z) - SCADE: NeRFs from Space Carving with Ambiguity-Aware Depth Estimates [16.344734292989504]
SCADEは、スパースで制約のない入力ビューにおけるNeRF再構成品質を改善する新しい技術である。
本研究では,各視点に対して,深度推定の連続的マルチモーダル分布を予測する新しい手法を提案する。
実験により,本手法はスパースビューから高忠実度ノベルビューの合成を可能にすることが示された。
論文 参考訳(メタデータ) (2023-03-23T18:00:07Z) - FetReg2021: A Challenge on Placental Vessel Segmentation and
Registration in Fetoscopy [52.3219875147181]
2-Twin Transfusion Syndrome (TTTS) に対するレーザー光凝固法が広く採用されている。
このプロシージャは、視野が限られたこと、フェトスコープの操作性が悪いこと、視認性が悪いこと、照明の変動性のために特に困難である。
コンピュータ支援介入(CAI)は、シーン内の重要な構造を特定し、ビデオモザイクを通して胎児の視野を広げることで、外科医に意思決定支援と文脈認識を提供する。
7つのチームがこの課題に参加し、そのモデルパフォーマンスを、6フェットから658ピクセルの注釈付き画像の見当たらないテストデータセットで評価した。
論文 参考訳(メタデータ) (2022-06-24T23:44:42Z) - Rethinking the Spatial Route Prior in Vision-and-Language Navigation [29.244758196643307]
VLN(Vision-and-Language Navigation)は、知的エージェントを自然言語による予測位置へナビゲートすることを目的としたトレンドトピックである。
この研究は、VLNのタスクを、これまで無視されていた側面、すなわちナビゲーションシーンの前の空間ルートから解決する。
論文 参考訳(メタデータ) (2021-10-12T03:55:43Z) - Unsupervised Deep Persistent Monocular Visual Odometry and Depth
Estimation in Extreme Environments [7.197188771058501]
教師なしの深層学習アプローチは、未ラベルの単分子画像列から深度と視覚計測(VO)を推定するために大きな注目を集めている。
そこで本稿では,RGB画像列からカメラの6自由度ポーズとシーンの深度マップを予測する,教師なし単眼深度VOフレームワークを提案する。
提案手法は, 従来の非教師付き深度VO法と非教師付き深度VO法の両方より優れ, ポーズ推定と深度回復の両面で良好な結果が得られる。
論文 参考訳(メタデータ) (2020-10-31T19:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。