論文の概要: Omni-Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2512.06862v1
- Date: Sun, 07 Dec 2025 14:32:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.560888
- Title: Omni-Referring Image Segmentation
- Title(参考訳): Omni-Referring Image Segmentation
- Authors: Qiancheng Zheng, Yunhang Shen, Gen Luo, Baiyang Song, Xing Sun, Xiaoshuai Sun, Yiyi Zhou, Rongrong Ji,
- Abstract要約: 我々は,Omni-Referring Image(OmniRIS)を高度に一般化した画像セグメンテーションに向けた新しいタスクを提案する。
RISやビジュアルRISのような既存の一様条件のセグメンテーションタスクと比較すると、OmniRISはマスク、ボックス、スクリブルをオムニプロンプトとして、テキスト命令と参照画像の入力をサポートする。
我々はOmniRefという,30,956枚の画像に対して186,939個のOmni-promptからなる大規模なデータセットを厳格に設計し,構築した。
- 参考スコア(独自算出の注目度): 106.67482846604877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel task termed Omni-Referring Image Segmentation (OmniRIS) towards highly generalized image segmentation. Compared with existing unimodally conditioned segmentation tasks, such as RIS and visual RIS, OmniRIS supports the input of text instructions and reference images with masks, boxes or scribbles as omni-prompts. This property makes it can well exploit the intrinsic merits of both text and visual modalities, i.e., granular attribute referring and uncommon object grounding, respectively. Besides, OmniRIS can also handle various segmentation settings, such as one v.s. many and many v.s. many, further facilitating its practical use. To promote the research of OmniRIS, we also rigorously design and construct a large dataset termed OmniRef, which consists of 186,939 omni-prompts for 30,956 images, and establish a comprehensive evaluation system. Moreover, a strong and general baseline termed OmniSegNet is also proposed to tackle the key challenges of OmniRIS, such as omni-prompt encoding. The extensive experiments not only validate the capability of OmniSegNet in following omni-modal instructions, but also show the superiority of OmniRIS for highly generalized image segmentation.
- Abstract(参考訳): 本稿では,Omni-Referring Image Segmentation (OmniRIS) と呼ばれる,高度に一般化された画像セグメンテーションに向けた新しいタスクを提案する。
RISやビジュアルRISのような既存の一様条件のセグメンテーションタスクと比較すると、OmniRISはマスク、ボックス、スクリブルをオムニプロンプトとして、テキスト命令と参照画像の入力をサポートする。
この性質は、テキストと視覚的モダリティの両方の本質的な利点、すなわち粒状属性参照と非一般的なオブジェクトグラウンドの利点をうまく活用することができる。
さらに、OmniRISは1 v.s. many や多くの v.s. many といった様々なセグメンテーション設定も扱えるので、その実用性をさらに促進できる。
また,OmniRISの研究を促進するために,30,956画像に対して186,939オムニプロンプトからなるOmniRefという大規模なデータセットを厳格に設計・構築し,総合的な評価システムを構築した。
さらに、Omni-promptエンコーディングのようなOmniRISの重要な課題に取り組むために、OmniSegNetと呼ばれる強力で一般的なベースラインも提案されている。
この実験は、OmniSegNetのオムニモーダル命令に従う能力を検証するだけでなく、OmniRISの高一般化画像セグメンテーションの優位性を示す。
関連論文リスト
- Omni-Embed-Nemotron: A Unified Multimodal Retrieval Model for Text, Image, Audio, and Video [5.732421858297378]
Omni-Embed-Nemotronは,実世界の情報ニーズの複雑化に対応するために開発された,統合型マルチモーダル検索埋め込みモデルである。
我々は,Omni-Embed-Nemotronのアーキテクチャ,トレーニング設定,評価結果を記述し,テキスト,画像,ビデオ検索においてその有効性を示す。
論文 参考訳(メタデータ) (2025-10-03T19:29:50Z) - Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation [68.4547223233201]
提案するOmnimodal Referring Audio-Visual Expression (OmniAVS) は,2,104ビデオと61,095マルチモーダル参照式を含む新しいデータセットである。
OmniAVS は,(1) テキスト,音声,音声,視覚的手がかりを柔軟に組み合わせた8種類のマルチモーダル表現,(2) 存在を検出すること以上の音声コンテンツを理解することを重視すること,(3) 複雑な推論を表現に含めること,の3つの重要なイノベーションを指摘した。
論文 参考訳(メタデータ) (2025-07-30T17:59:31Z) - OmniGen2: Exploration to Advanced Multimodal Generation [102.55457132692969]
我々はOmniGen2を紹介した。OmniGen2は多種多様な生成タスクに統一されたソリューションを提供するために設計された汎用的でオープンソースな生成モデルである。
OmniGen v1とは異なり、OmniGen2はテキストと画像のモダリティのための2つの異なるデコードパスを備えており、未共有のパラメータと分離された画像トークンを使用する。
論文 参考訳(メタデータ) (2025-06-23T17:38:54Z) - OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction [32.08995899903304]
我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。
提案手法は,テキスト・画像生成の範囲を大きく拡大し,より汎用的で実用的な制御性に拡張する。
論文 参考訳(メタデータ) (2024-10-07T11:26:13Z) - OmniQuery: Contextually Augmenting Captured Multimodal Memory to Enable Personal Question Answering [3.8233569758620063]
複雑な個人記憶に関する質問に答えられる新しいシステムであるOmniQueryを紹介する。
質問に対して、OmniQueryは関連する拡張メモリを取得し、大きな言語モデル(LLM)を使用して参照による回答を生成する。
人間の評価では,71.5%の精度でOmniQueryの有効性を示す。
論文 参考訳(メタデータ) (2024-09-12T17:48:08Z) - OmniGlue: Generalizable Feature Matching with Foundation Model Guidance [21.692165943308797]
本稿では,OmniGlueについて紹介する。OmniGlueは,一般化を基本原理として設計された最初の学習可能な画像マッチングである。
本稿では,空間情報と外観情報をアンタングル化する新しいキーポイント位置誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2024-05-21T17:59:22Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。