論文の概要: Audit After Segmentation: Reference-Free Mask Quality Assessment for Language-Referred Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2602.03892v1
- Date: Tue, 03 Feb 2026 07:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.206966
- Title: Audit After Segmentation: Reference-Free Mask Quality Assessment for Language-Referred Audio-Visual Segmentation
- Title(参考訳): セグメンテーション後の聴覚:参照なしマスク品質評価による言語参照音声-ビジュアルセグメンテーション
- Authors: Jinxing Zhou, Yanghao Zhou, Yaoting Wang, Zongyan Han, Jiaqi Ma, Henghui Ding, Rao Muhammad Anwer, Hisham Cholakkal,
- Abstract要約: Ref-AVSコンテキストにおけるマスク品質評価(MQA-RefAVS)
MQA-RefAVSは、地平線アノテーションに頼ることなく、候補セグメンテーションマスクの品質を評価するタスクである。
本稿では,マルチモーダルな大規模言語モデル(MLLM)に基づく監査ツールMQ-Auditorを提案する。
- 参考スコア(独自算出の注目度): 79.13636675697096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-referred audio-visual segmentation (Ref-AVS) aims to segment target objects described by natural language by jointly reasoning over video, audio, and text. Beyond generating segmentation masks, providing rich and interpretable diagnoses of mask quality remains largely underexplored. In this work, we introduce Mask Quality Assessment in the Ref-AVS context (MQA-RefAVS), a new task that evaluates the quality of candidate segmentation masks without relying on ground-truth annotations as references at inference time. Given audio-visual-language inputs and each provided segmentation mask, the task requires estimating its IoU with the unobserved ground truth, identifying the corresponding error type, and recommending an actionable quality-control decision. To support this task, we construct MQ-RAVSBench, a benchmark featuring diverse and representative mask error modes that span both geometric and semantic issues. We further propose MQ-Auditor, a multimodal large language model (MLLM)-based auditor that explicitly reasons over multimodal cues and mask information to produce quantitative and qualitative mask quality assessments. Extensive experiments demonstrate that MQ-Auditor outperforms strong open-source and commercial MLLMs and can be integrated with existing Ref-AVS systems to detect segmentation failures and support downstream segmentation improvement. Data and codes will be released at https://github.com/jasongief/MQA-RefAVS.
- Abstract(参考訳): Ref-AVS (Language-referred audio-visual segmentation) は、音声、音声、テキストを共同で推論することで、自然言語で記述された対象物を分類することを目的としている。
セグメンテーションマスクの生成以外にも、マスクの品質の豊かで解釈可能な診断を提供するものは、ほとんど探索されていない。
本稿では,Ref-AVSコンテキストにおけるマスク品質評価(MQA-RefAVS)について紹介する。
音声視覚言語入力と提供されるセグメンテーションマスクを与えられたタスクは、そのIoUを観測されていない真実で推定し、対応するエラータイプを特定し、実行可能な品質制御決定を推奨する。
このタスクをサポートするためにMQ-RAVSBenchという,幾何学的および意味的な問題にまたがる多様かつ代表的なマスクエラーモードを備えたベンチマークを構築した。
さらに,マルチモーダルな大規模言語モデル (MLLM) を用いた監査機 MQ-Auditor を提案する。
MQ-Auditorは強力なオープンソースおよび商用MLLMよりも優れており、既存のRef-AVSシステムと統合してセグメンテーション障害を検出し、下流セグメンテーションの改善をサポートすることができる。
データとコードはhttps://github.com/jasongief/MQA-RefAVSで公開される。
関連論文リスト
- Segment and Matte Anything in a Unified Model [5.8874968768571625]
Segment Anything (SAM)は先日,ゼロショットの一般化とフレキシブルプロンプトを実証することによって,セグメンテーションの境界を推し進めた。
SAMの軽量拡張であるSegment And Matte Anything(SAMA)を紹介する。
論文 参考訳(メタデータ) (2026-01-17T19:43:10Z) - Temporal Prompting Matters: Rethinking Referring Video Object Segmentation [64.82333675385802]
Referring Video Object (RVOS) は、クエリ文によって参照されるオブジェクトをビデオにセグメントすることを目的としている。
既存のほとんどの方法は、密集したマスクアノテーションによるエンドツーエンドのトレーニングを必要とする。
本稿では,参照要因とビデオ要因に対処するテンポラル・プロンプト生成・選択(テネ)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-08T17:59:57Z) - Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence [22.45673628231233]
アクションベースのビデオオブジェクトセグメンテーションは、セグメンテーションとアクションセマンティクスをリンクすることでこの問題に対処する。
まず、ラベルノイズ下でのアクションベースビデオオブジェクトのセグメンテーションについて検討する。
この設定に6つのラベルノイズ学習戦略を適用し、評価のためのプロトコルを確立する。
論文 参考訳(メタデータ) (2025-09-20T13:03:43Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes [11.575313825919205]
参照音声・視覚的伝統(Ref-AVS)と呼ばれる新しいタスクを導入する。
Ref-AVSはマルチモーダルキューを含む式に基づいてオブジェクトをセグメント化する。
本稿では,マルチモーダルキューを適切に活用し,正確なセグメンテーションガイダンスを提供する手法を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:54:45Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - MASR: Multi-label Aware Speech Representation [36.2978180342839]
マルチラベル対応音声表現学習フレームワークMASRを提案する。
MASRは、複数の外部知識ソースを組み込むことで、メタデータ情報の利用を促進できる。
我々は、他の確立されたベンチマークに比べて、MASRの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-07-20T16:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。