論文の概要: Learning to Segment Liquids in Real-world Images
- arxiv url: http://arxiv.org/abs/2601.00940v1
- Date: Fri, 02 Jan 2026 16:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.874351
- Title: Learning to Segment Liquids in Real-world Images
- Title(参考訳): 実世界の画像から液体を分離する学習
- Authors: Jonas Li, Michelle Li, Luke Liu, Heng Fan,
- Abstract要約: LQDSという名の液体の大規模データセットを構築し、14の異なるクラスに注釈付けされた5000個の実世界の画像からなる。
我々は,専用境界分岐と主セグメンテーション分岐との交差アテンションを利用して,セグメンテーション予測を強化するLQDMという新しい液体検出モデルを設計する。
- 参考スコア(独自算出の注目度): 10.081056869677527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different types of liquids such as water, wine and medicine appear in all aspects of daily life. However, limited attention has been given to the task, hindering the ability of robots to avoid or interact with liquids safely. The segmentation of liquids is difficult because liquids come in diverse appearances and shapes; moreover, they can be both transparent or reflective, taking on arbitrary objects and scenes from the background or surroundings. To take on this challenge, we construct a large-scale dataset of liquids named LQDS consisting of 5000 real-world images annotated into 14 distinct classes, and design a novel liquid detection model named LQDM, which leverages cross-attention between a dedicated boundary branch and the main segmentation branch to enhance segmentation predictions. Extensive experiments demonstrate the effectiveness of LQDM on the test set of LQDS, outperforming state-of-the-art methods and establishing a strong baseline for the semantic segmentation of liquids.
- Abstract(参考訳): 水、ワイン、医薬品などの様々な種類の液体が日常生活のあらゆる面に現れる。
しかし、ロボットが液体を安全に回避したり、操作したりすることを妨げているため、この作業には限られた注意が向けられている。
液体のセグメンテーションは、様々な外観や形状を持つため困難であり、また、それらは透明でも反射性でもあり、背景や周囲から任意の物体やシーンを取り込むことができる。
この課題に対処するため,14のクラスにアノテートされた5000個の実世界の画像からなるLQDSと呼ばれる液体の大規模データセットを構築し,専用境界分岐と主セグメント分岐との交差アテンションを利用してセグメンテーション予測を強化するLQDMという新しい液体検出モデルを設計した。
大規模実験はLQDMがLQDSのテストセットに及ぼす影響を実証し、最先端の手法より優れ、液体のセマンティックセグメンテーションのための強力なベースラインを確立した。
関連論文リスト
- Multimodal Continual Learning with MLLMs from Multi-scenario Perspectives [61.64550292163646]
視覚理解における連続学習は,多モーダル大言語モデル(MLLM)における破滅的忘れに対処することを目的としている
我々は、4つの異なるシナリオと視点を含むマルチモーダル視覚理解データセット(MSVQA)を構築した。
MLLMを用いたmUltimodal coNtInual Learningを提案する。
論文 参考訳(メタデータ) (2025-11-23T15:47:49Z) - Phys-Liquid: A Physics-Informed Dataset for Estimating 3D Geometry and Volume of Transparent Deformable Liquids [47.96212902310787]
透明な変形可能な液体の幾何学的および体積的特性の推定は、光学的複雑さと容器運動によって引き起こされる動的表面変形により困難である。
97,200個のシミュレーション画像とそれに対応する3Dメッシュからなる物理インフォームドデータセットであるPhys-Liquidを紹介する。
実験の結果, 液体形状と体積の再構成における精度と整合性が向上し, 既存のベンチマークより優れていた。
論文 参考訳(メタデータ) (2025-11-14T08:50:58Z) - Multimodal Language Models See Better When They Look Shallower [54.5303326937134]
マルチモーダル大言語モデル(MLLM)は、通常、事前訓練された視覚変換器(ViT)の最終層から視覚的特徴を抽出する。
MLLMの視覚層選択に関する最初の総合的研究を行い,VT層間の表現類似性を解析した。
我々は、深い層がOCRのようなセマンティックリッチなタスクに優れているのに対して、浅い層と中層の層は、きめ細かい視覚的なタスクでそれらを著しく上回っていることに気付きました。
論文 参考訳(メタデータ) (2025-04-30T09:07:10Z) - UniUIR: Considering Underwater Image Restoration as An All-in-One Learner [62.65503609562905]
我々はUniUIRと呼ばれるユニバーサル水中画像復元手法を提案する。
劣化固有の問題を分離し、UIRタスクにおける様々な劣化の相関関係を探るため、我々はMamba Mixture-of-Expertsモジュールを設計した。
このモジュールは、空間領域と周波数領域の両方において劣化前の情報を抽出し、最適なタスク固有のプロンプトを適応的に選択する。
論文 参考訳(メタデータ) (2025-01-22T16:10:42Z) - LiqD: A Dynamic Liquid Level Detection Model under Tricky Small
Containers [5.361320134021586]
本稿では,U2-Netに基づくコンテナ動的液位検出モデルを提案する。
実験結果から, 容器内の液体の動的液体レベル変化を効果的に検出できることが示唆された。
論文 参考訳(メタデータ) (2024-03-13T05:53:25Z) - Fluid Viscosity Prediction Leveraging Computer Vision and Robot
Interaction [9.312155153982982]
本研究は,映像データから得られた流体振動を解析することにより,流体粘性予測の可能性を探るものである。
パイプラインは、自制的に事前訓練された3D畳み込みオートエンコーダを使用して、振動流体のセマンティックセグメンテーションマスクから特徴を抽出し、学習する。
事前訓練されたオートエンコーダによって生成された潜在表現を分類するために使用すると、システムは合計4140のテストデータポイントに対して97.1%の精度を達成する。
論文 参考訳(メタデータ) (2023-08-04T21:23:34Z) - FluidLab: A Differentiable Environment for Benchmarking Complex Fluid
Manipulation [80.63838153351804]
複雑な流体力学を含む多種多様な操作タスクを備えたシミュレーション環境であるFluidLabを紹介する。
私たちのプラットフォームの中心には、GPU加速シミュレーションと勾配計算を提供する、完全に微分可能な物理シミュレータがあります。
微分可能物理学と組み合わせたいくつかのドメイン固有最適化スキームを提案する。
論文 参考訳(メタデータ) (2023-03-04T07:24:22Z) - Metadata-guided Consistency Learning for High Content Images [1.5207770161985628]
Cross-Domain Consistency Learning (CDCL)は、バッチ効果の存在下で学習できる自己教師型アプローチである。
CDCLは、望ましくないバッチ固有のシグナルを無視しながら、生物学的類似性の学習を強制する。
これらの特徴は形態的変化に応じて組織化され、下流タスクに有用である。
論文 参考訳(メタデータ) (2022-12-22T10:39:10Z) - Self-supervised Transparent Liquid Segmentation for Robotic Pouring [15.174709965663299]
液体状態の推定は、注水などのロボティクスのタスクにおいて重要である。
色付き液体の画像から合成された透明な液体画像への変換が可能な生成モデルを用いる。
手動のアノテーションを必要とせずに透明液体のセグメンテーションマスクを正確に予測することができる。
論文 参考訳(メタデータ) (2022-03-03T06:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。