論文の概要: PhraseStereo: The First Open-Vocabulary Stereo Image Segmentation Dataset
- arxiv url: http://arxiv.org/abs/2510.00818v1
- Date: Wed, 01 Oct 2025 12:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.551902
- Title: PhraseStereo: The First Open-Vocabulary Stereo Image Segmentation Dataset
- Title(参考訳): PhraseStereo:最初のオープン語彙ステレオ画像セグメンテーションデータセット
- Authors: Thomas Campagnolo, Ezio Malis, Philippe Martinet, Gaetan Bahl,
- Abstract要約: PhraseStereoは、ステレオ画像ペアにフレーズ領域セグメンテーションをもたらす最初の新しいデータセットである。
GenStereoを活用してPhraseCutデータセット上に構築され、既存のシングルビューデータから正確な右ビュー画像を生成する。
言語、視覚、および3D知覚の交わりにおける将来の研究の基礎を築いている。
- 参考スコア(独自算出の注目度): 4.054016539071785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how natural language phrases correspond to specific regions in images is a key challenge in multimodal semantic segmentation. Recent advances in phrase grounding are largely limited to single-view images, neglecting the rich geometric cues available in stereo vision. For this, we introduce PhraseStereo, the first novel dataset that brings phrase-region segmentation to stereo image pairs. PhraseStereo builds upon the PhraseCut dataset by leveraging GenStereo to generate accurate right-view images from existing single-view data, enabling the extension of phrase grounding into the stereo domain. This new setting introduces unique challenges and opportunities for multimodal learning, particularly in leveraging depth cues for more precise and context-aware grounding. By providing stereo image pairs with aligned segmentation masks and phrase annotations, PhraseStereo lays the foundation for future research at the intersection of language, vision, and 3D perception, encouraging the development of models that can reason jointly over semantics and geometry. The PhraseStereo dataset will be released online upon acceptance of this work.
- Abstract(参考訳): 自然言語のフレーズが画像内の特定の領域とどのように対応するかを理解することは、マルチモーダルなセマンティックセグメンテーションにおいて重要な課題である。
句接頭辞の最近の進歩は、ステレオビジョンで利用可能なリッチな幾何学的手がかりを無視して、主にシングルビュー画像に限られている。
このためにPhraseStereoは、ステレオ画像対にフレーズ領域のセグメンテーションをもたらす最初の新しいデータセットである。
PhraseStereoは、GenStereoを活用して、既存のシングルビューデータから正確な右ビュー画像を生成することにより、PhraseCutデータセット上に構築される。
この新たなセッティングは、特により正確でコンテキスト対応のグラウンドニングにディープキューを活用する際に、マルチモーダル学習のユニークな課題と機会を導入します。
整列したセグメンテーションマスクとフレーズアノテーションを備えたステレオ画像ペアを提供することで、PhraseStereoは言語、視覚、および3D知覚の交差点における将来の研究の基礎を築き、意味論と幾何学を共同で推論できるモデルの開発を促進する。
PhraseStereoデータセットは、この作業が受け入れられると、オンラインでリリースされる。
関連論文リスト
- GS: Generative Segmentation via Label Diffusion [59.380173266566715]
言語駆動のイメージセグメンテーションは、自然言語表現に対応する画像の領域を分割するモデルを必要とする、視覚言語理解の基本的なタスクである。
近年の拡散モデルがこの領域に導入されているが、既存のアプローチは画像中心のままである。
生成タスクとしてセグメンテーション自体を定式化する新しいフレームワークであるGS(Generative Label)を提案する。
実験の結果,GSは既存の差別的・拡散的手法を著しく上回り,言語駆動セグメンテーションのための新たな最先端技術が確立された。
論文 参考訳(メタデータ) (2025-08-27T16:28:15Z) - LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models [44.578308186225826]
最近のオープンボキャブラリ検出器は、豊富な領域レベルのアノテートデータで有望な性能を達成する。
画像ごとに画像レベルの詳細なキャプションを生成することにより,大規模言語モデルと共用するオープン語彙検出器により,性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-31T08:27:31Z) - HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections [19.05215193265488]
本稿では,大規模ランドマークを描写したシーンのニューラル表現と,シーン内の意味領域を記述したテキストを結合するローカライズシステムを提案する。
我々のアプローチは、宇宙空間に物理的に接地した画像が、新しい概念をローカライズするための強力な監視信号を提供するという前提に基づいている。
以上の結果から,HaLo-NeRFはアーキテクチャのランドマークに関連するさまざまな意味概念を正確にローカライズできることがわかった。
論文 参考訳(メタデータ) (2024-02-14T14:02:04Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Text-Free Image-to-Speech Synthesis Using Learned Segmental Units [24.657722909094662]
画像の自然な音声キャプションを直接流用する最初のモデルを提案する。
我々は、画像キャプションモジュールと音声合成モジュールを、独立したサブワード音声ユニットのセットで接続する。
Flickr8k音声キャプションデータセットと、人気のMSCOCOデータセットのために収集された音声キャプションの新しいコーパスについて実験を行います。
論文 参考訳(メタデータ) (2020-12-31T05:28:38Z) - PhraseCut: Language-based Image Segmentation in the Wild [62.643450401286]
自然言語のフレーズを与えられた画像領域を分割する問題について考察する。
私たちのデータセットは、Visual Genomeデータセットの上に収集されます。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
論文 参考訳(メタデータ) (2020-08-03T20:58:53Z) - MAGNet: Multi-Region Attention-Assisted Grounding of Natural Language
Queries at Phrase Level [6.47137925955334]
画像レベルの視覚・テキスト融合に空間的注意ネットワークを活用することを提案する。
In-network Region Proposal Network (RPN) でリージョン提案を洗練し、フレーズクエリに対して単一または複数リージョンを検出する。
このような参照式データセットであるReferItでは、マルチリージョンアテンション支援基盤ネットワーク(MAGNet)が最先端技術よりも12%以上の改善を実現しています。
論文 参考訳(メタデータ) (2020-06-06T04:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。