論文の概要: ChatStitch: Visualizing Through Structures via Surround-View Unsupervised Deep Image Stitching with Collaborative LLM-Agents
- arxiv url: http://arxiv.org/abs/2503.14948v1
- Date: Wed, 19 Mar 2025 07:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:20.955004
- Title: ChatStitch: Visualizing Through Structures via Surround-View Unsupervised Deep Image Stitching with Collaborative LLM-Agents
- Title(参考訳): ChatStitch:LLM-Agentsを用いた非教師なし深層画像ストレッチによる構造物の可視化
- Authors: Hao Liang, Zhipeng Dong, Yi Yang, Mengyin Fu,
- Abstract要約: 本稿では,不明瞭な盲点情報を提示できる最初の協調認識システムChatStitchを紹介する。
複雑なコマンドや抽象的なコマンドを十分に処理するために、ChatStitchでは、大規模言語モデルに基づいたマルチエージェント協調フレームワークを採用している。
人間の最も直感的な知覚を実現するため、ChatStitch氏はSV-UDISを提案している。
- 参考スコア(独自算出の注目度): 20.538851893272657
- License:
- Abstract: Collaborative perception has garnered significant attention for its ability to enhance the perception capabilities of individual vehicles through the exchange of information with surrounding vehicle-agents. However, existing collaborative perception systems are limited by inefficiencies in user interaction and the challenge of multi-camera photorealistic visualization. To address these challenges, this paper introduces ChatStitch, the first collaborative perception system capable of unveiling obscured blind spot information through natural language commands integrated with external digital assets. To adeptly handle complex or abstract commands, ChatStitch employs a multi-agent collaborative framework based on Large Language Models. For achieving the most intuitive perception for humans, ChatStitch proposes SV-UDIS, the first surround-view unsupervised deep image stitching method under the non-global-overlapping condition. We conducted extensive experiments on the UDIS-D, MCOV-SLAM open datasets, and our real-world dataset. Specifically, our SV-UDIS method achieves state-of-the-art performance on the UDIS-D dataset for 3, 4, and 5 image stitching tasks, with PSNR improvements of 9%, 17%, and 21%, and SSIM improvements of 8%, 18%, and 26%, respectively.
- Abstract(参考訳): 協調的知覚は、周囲の車両エージェントと情報を交換することで、個々の車両の知覚能力を高める能力に対して大きな注目を集めている。
しかし,既存の協調認識システムは,ユーザインタラクションの非効率性や,マルチカメラのフォトリアリスティック・ビジュアライゼーションの課題によって制限されている。
これらの課題に対処するために,外部デジタル資産と統合された自然言語コマンドを通じて,見えない盲点情報を提示できる,初の協調認識システムChatStitchを紹介する。
複雑なコマンドや抽象的なコマンドを十分に処理するために、ChatStitchでは、大規模言語モデルに基づいたマルチエージェント協調フレームワークを採用している。
ChatStitchは、人間にとって最も直感的な知覚を達成するために、非球面重なり合う条件下で、最初のサラウンドビュー非教師なし深層画像縫合法であるSV-UDISを提案する。
UDIS-D, MCOV-SLAMオープンデータセット, 実世界のデータセットについて広範な実験を行った。
具体的には,3,4,5画像の縫合作業において,PSNRが9%,17%,21%,SSIMが8%,18%,26%の改善が得られた。
関連論文リスト
- Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval [85.73149096516543]
微細スケッチベース画像検索(FG-SBIR)におけるスケッチ作成時の視点選択について検討する。
パイロットスタディでは、クエリスケッチがターゲットインスタンスと異なる場合、システムの苦労を強調している。
これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:20:44Z) - Open-World Human-Object Interaction Detection via Multi-modal Prompts [26.355054079885463]
MP-HOIは多モードのPromptベースの強力なHOI検出器であり、オープンセットの一般化のためのテキスト記述と、説明の曖昧さを扱う視覚的見本の両方を活用するように設計されている。
MP-HOIは一般のHOI検出器として機能し、既存の専門家モデルのHOI語彙を30倍以上上回った。
論文 参考訳(メタデータ) (2024-06-11T13:01:45Z) - UVCPNet: A UAV-Vehicle Collaborative Perception Network for 3D Object Detection [11.60579201022641]
地上共同作業に特化して設計された枠組みを提案する。
研究のためにV2U-COOという仮想データセットを開発した。
第2に、ターゲット情報を調整するために、クロスドメイン・クロスアダプティブ(CDCA)モジュールを設計する。
第3に,より正確な深度推定結果を得るために,協調深度最適化(CDO)モジュールを導入する。
論文 参考訳(メタデータ) (2024-06-07T05:25:45Z) - V2X-AHD:Vehicle-to-Everything Cooperation Perception via Asymmetric
Heterogenous Distillation Network [13.248981195106069]
車両間協調認識システム(V2X-AHD)を提案する。
この研究によると、V2X-AHDは3次元物体検出の精度を効果的に向上し、ネットワークパラメータの数を削減できる。
論文 参考訳(メタデータ) (2023-10-10T13:12:03Z) - Coordinate-Aligned Multi-Camera Collaboration for Active Multi-Object
Tracking [114.16306938870055]
AMOTのための座標整列型マルチカメラ協調システムを提案する。
提案手法では,各カメラをエージェントとみなし,マルチエージェント強化学習ソリューションを用いてAMOTに対処する。
本システムでは,ベースライン法を8.9%上回る71.88%のカバレッジを実現している。
論文 参考訳(メタデータ) (2022-02-22T13:28:40Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data [13.68491474904529]
テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。
自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。
TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-03T12:36:01Z) - Neighbourhood-guided Feature Reconstruction for Occluded Person
Re-Identification [45.704612531562404]
本研究では,周辺情報をギャラリーのイメージセットでフル活用し,埋蔵部品の特徴表現の再構築を提案する。
大規模なOccluded-DukeMTMCベンチマークでは,64.2%のmAPと67.6%のランク1精度を達成した。
論文 参考訳(メタデータ) (2021-05-16T03:53:55Z) - Stereo Matching by Self-supervision of Multiscopic Vision [65.38359887232025]
カメラ位置の整列で撮影した複数の画像を利用したステレオマッチングのための新しい自己監視フレームワークを提案する。
ネットワークを最適化するために、クロスフォトメトリックロス、不確実性を認識した相互監督損失、および新しい平滑性損失が導入されます。
我々のモデルは、KITTIデータセット上の以前の教師なし手法よりも、より良い不均一性マップを得る。
論文 参考訳(メタデータ) (2021-04-09T02:58:59Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。