論文の概要: Unveiling the Invisible: Reasoning Complex Occlusions Amodally with AURA
- arxiv url: http://arxiv.org/abs/2503.10225v1
- Date: Thu, 13 Mar 2025 10:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:52.572719
- Title: Unveiling the Invisible: Reasoning Complex Occlusions Amodally with AURA
- Title(参考訳): 不可視化: AURA とのアモルファスな複合咬合の推論
- Authors: Zhixuan Li, Hyunse Yoon, Sanghoon Lee, Weisi Lin,
- Abstract要約: アモーダルセグメンテーションは、隠蔽された領域の外観が利用できない場合でも、隠蔽された物体の完全な形状を推測することを目的としている。
現在のアモーダルセグメンテーション手法では、テキスト入力によってユーザと対話する能力が欠如している。
本稿では,隠蔽対象物の完全な非モーダル形状を予測することを目的とした,非モーダル推論セグメンテーション(amodal reasoning segmentation)という新しいタスクを提案する。
- 参考スコア(独自算出の注目度): 49.10341970643037
- License:
- Abstract: Amodal segmentation aims to infer the complete shape of occluded objects, even when the occluded region's appearance is unavailable. However, current amodal segmentation methods lack the capability to interact with users through text input and struggle to understand or reason about implicit and complex purposes. While methods like LISA integrate multi-modal large language models (LLMs) with segmentation for reasoning tasks, they are limited to predicting only visible object regions and face challenges in handling complex occlusion scenarios. To address these limitations, we propose a novel task named amodal reasoning segmentation, aiming to predict the complete amodal shape of occluded objects while providing answers with elaborations based on user text input. We develop a generalizable dataset generation pipeline and introduce a new dataset focusing on daily life scenarios, encompassing diverse real-world occlusions. Furthermore, we present AURA (Amodal Understanding and Reasoning Assistant), a novel model with advanced global and spatial-level designs specifically tailored to handle complex occlusions. Extensive experiments validate AURA's effectiveness on the proposed dataset. The code, model, and dataset will be publicly released.
- Abstract(参考訳): アモーダルセグメンテーションは、隠蔽された領域の外観が利用できない場合でも、隠蔽された物体の完全な形状を推測することを目的としている。
しかし、現在のアモーダルセグメンテーション手法では、テキスト入力を通じてユーザと対話する能力が欠如しており、暗黙的かつ複雑な目的について理解や推論に苦慮している。
LISAのようなメソッドは、多モードの大規模言語モデル(LLM)を推論タスクのセグメンテーションと統合するが、それらは可視なオブジェクト領域のみを予測し、複雑なオクルージョンシナリオを扱う際の課題に直面するに限られる。
これらの制約に対処するため,ユーザテキスト入力に基づく実験結果を提供しながら,隠蔽対象の完全なアモーダル形状を予測することを目的とした,アモーダル推論セグメンテーション(amodal reasoning segmentation)という新しいタスクを提案する。
我々は、一般化可能なデータセット生成パイプラインを開発し、多様な現実世界の隠蔽を含む日常生活シナリオに焦点を当てた新しいデータセットを導入する。
さらに,AURA(Amodal Understanding and Reasoning Assistant)について述べる。
大規模な実験により、提案したデータセット上でのAURAの有効性が検証された。
コード、モデル、データセットが公開される。
関連論文リスト
- Open-World Amodal Appearance Completion [14.398395372699207]
オープンワールド・アモーダル・アプライアンス・コンプリート(Open-World Amodal Appearance Completion)は、アモーダル・コンプリート機能を拡張するトレーニングフリーのフレームワークである。
我々のアプローチは、直接項と抽象クエリの両方で指定された任意のオブジェクトに一般化する。
論文 参考訳(メタデータ) (2024-11-20T03:45:48Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Sequential Amodal Segmentation via Cumulative Occlusion Learning [15.729212571002906]
視覚系は、物体の可視領域と隠蔽領域の両方を分割できなければならない。
本研究では,不確実なカテゴリを持つオブジェクトの逐次アモーダルセグメンテーションを目的とした累積オクルージョン学習を用いた拡散モデルを提案する。
このモデルは拡散中の累積マスク戦略を用いて予測を反復的に洗練し、目に見えない領域の不確かさを効果的に捉える。
これは、物体間の空間的秩序を解読し、密集した視覚的な場面で隠蔽された物体の完全な輪郭を正確に予測する、アモーダル知覚の人間の能力に類似している。
論文 参考訳(メタデータ) (2024-05-09T14:17:26Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。
本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。
本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:40:45Z) - BLADE: Box-Level Supervised Amodal Segmentation through Directed
Expansion [10.57956193654977]
Boxレベルの教師付きアモーダルセグメンテーションは、この課題に対処する。
可視マスクから対応するアモーダルマスクへの指向性拡張アプローチを導入することで,新しい解を提案する。
このアプローチでは、オーバーラップする領域 – 異なるインスタンスが交わる領域 – に基づいた、ハイブリッドなエンドツーエンドネットワークが関係しています。
論文 参考訳(メタデータ) (2024-01-03T09:37:03Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Robust Instance Segmentation through Reasoning about Multi-Object
Occlusion [9.536947328412198]
本稿では,隠蔽に頑健な多目的インスタンスセグメンテーションのためのディープネットワークを提案する。
私たちの研究は、神経機能アクティベーションの生成モデルを学習し、オクローダの発見に役立てています。
特に、オブジェクトクラスとそのインスタンスおよびオクルーダーセグメンテーションのフィードフォワード予測を得る。
論文 参考訳(メタデータ) (2020-12-03T17:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。