論文の概要: LIHE: Linguistic Instance-Split Hyperbolic-Euclidean Framework for Generalized Weakly-Supervised Referring Expression Comprehension
- arxiv url: http://arxiv.org/abs/2511.12020v1
- Date: Sat, 15 Nov 2025 04:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.5108
- Title: LIHE: Linguistic Instance-Split Hyperbolic-Euclidean Framework for Generalized Weakly-Supervised Referring Expression Comprehension
- Title(参考訳): LIHE:Lingguistic Instance-Split Hyperbolic-Euclidean Framework for Generalized Weakly Supervised Referring Expression Comprehension
- Authors: Xianglong Shi, Silin Cheng, Sirui Zhao, Yunhan Jiang, Enhong Chen, Yang Liu, Sebastien Ourselin,
- Abstract要約: 既存のWeakly-Supervised Referring Expression (WREC) メソッドは、基本的に1対1のマッピング仮定によって制限される。
Weakly-Supervised Generalized Referring Expression Task (WGREC)を導入する。
本稿では,2段階で動作するLingguistic Instance-Split-Euclidean (LIHE) という新しいWGRECフレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.52759428579815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Weakly-Supervised Referring Expression Comprehension (WREC) methods, while effective, are fundamentally limited by a one-to-one mapping assumption, hindering their ability to handle expressions corresponding to zero or multiple targets in realistic scenarios. To bridge this gap, we introduce the Weakly-Supervised Generalized Referring Expression Comprehension task (WGREC), a more practical paradigm that handles expressions with variable numbers of referents. However, extending WREC to WGREC presents two fundamental challenges: supervisory signal ambiguity, where weak image-level supervision is insufficient for training a model to infer the correct number and identity of referents, and semantic representation collapse, where standard Euclidean similarity forces hierarchically-related concepts into non-discriminative clusters, blurring categorical boundaries. To tackle these challenges, we propose a novel WGREC framework named Linguistic Instance-Split Hyperbolic-Euclidean (LIHE), which operates in two stages. The first stage, Referential Decoupling, predicts the number of target objects and decomposes the complex expression into simpler sub-expressions. The second stage, Referent Grounding, then localizes these sub-expressions using HEMix, our innovative hybrid similarity module that synergistically combines the precise alignment capabilities of Euclidean proximity with the hierarchical modeling strengths of hyperbolic geometry. This hybrid approach effectively prevents semantic collapse while preserving fine-grained distinctions between related concepts. Extensive experiments demonstrate LIHE establishes the first effective weakly supervised WGREC baseline on gRefCOCO and Ref-ZOM, while HEMix achieves consistent improvements on standard REC benchmarks, improving IoU@0.5 by up to 2.5\%. The code is available at https://anonymous.4open.science/r/LIHE.
- Abstract(参考訳): 既存のWREC(Weakly Supervised Referring Expression Comprehension)メソッドは、有効ではあるが、1対1のマッピング仮定によって基本的に制限されており、現実的なシナリオではゼロまたは複数のターゲットに対応する式を扱う能力を妨げる。
このギャップを埋めるために、より実用的なパラダイムであるWGREC(Weakly-Supervised Generalized Referring Expression Comprehension Task)を導入する。
しかしながら、WRECをWGRECに拡張することは、2つの基本的な課題を示す: 監督信号の曖昧さ、参照者の正しい数とアイデンティティを推測するモデルの訓練に弱い画像レベルの監督が不十分なこと、意味表現の崩壊、標準ユークリッド類似性は階層的に関連する概念を非識別的クラスタに強制し、分類的境界を曖昧にする。
これらの課題に対処するために,Linguistic Instance-Split Hyperbolic-Euclidean (LIHE) という新しい WGREC フレームワークを提案する。
最初のステージであるReferential Decouplingは、ターゲットオブジェクトの数を予測し、複雑な表現を単純なサブ表現に分解する。
2番目のステージであるReferent Groundingは、これらの部分表現をHEMixを使ってローカライズする。これは我々の革新的なハイブリッド類似モジュールで、ユークリッド近傍の正確なアライメント能力と双曲幾何学の階層的モデリング強度を相乗的に組み合わせている。
このハイブリッドアプローチは、関連する概念間の微妙な区別を維持しながら、意味的崩壊を効果的に防止する。
LIHEはgRefCOCOとRef-ZOMをベースラインとして、HEMixは標準RECベンチマークで一貫した改善を実現し、IoU@0.5を最大2.5倍改善した。
コードはhttps://anonymous.4open.science/r/LIHEで公開されている。
関連論文リスト
- SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation [58.80001825332851]
Referring Image (RIS) は、自然言語で表現された画像に対象のオブジェクトを分割することを目的としている。
最近の手法は主に「赤い車」や「左少女」のような単純な表現に焦点を当てている
論文 参考訳(メタデータ) (2025-10-11T10:50:58Z) - RSRefSeg 2: Decoupling Referring Remote Sensing Image Segmentation with Foundation Models [25.265113510539546]
Referring Remote Sensing Imageは、リモートセンシングシーン分析のための柔軟できめ細かいフレームワークを提供する。
現在のアプローチでは、デュアルモーダル符号化、クロスモーダル相互作用、ピクセルデコーディングを含む3段階のパイプラインを使用している。
本稿では,従来のワークフローを協調的な2段階のフレームワークに再構成する疎結合パラダイム RSRefSeg 2 を提案する。
論文 参考訳(メタデータ) (2025-07-08T17:59:58Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition [56.22672276092373]
半教師付き学習は、表情認識におけるラベル不足の課題に取り組むための有望なアプローチとして現れてきた。
半教師付きFERのための表現関連表現と擬似ラベルを協調する統合フレームワークであるhierarchicaL dEcoupling And Fusing (LEAF)を提案する。
論文 参考訳(メタデータ) (2024-04-23T13:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。