論文の概要: BARE: Towards Bias-Aware and Reasoning-Enhanced One-Tower Visual Grounding
- arxiv url: http://arxiv.org/abs/2601.01526v1
- Date: Sun, 04 Jan 2026 13:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.465735
- Title: BARE: Towards Bias-Aware and Reasoning-Enhanced One-Tower Visual Grounding
- Title(参考訳): BARE:Bias-AwareとReasoningで強化されたワンTowerビジュアルグラウンドを目指して
- Authors: Hongbing Li, Linhui Xiao, Zihan Zhao, Qi Shen, Yixiang Huang, Bo Xiao, Zhanyu Ma,
- Abstract要約: 本稿では,1towerビジュアルグラウンドティングのためのバイアス認識および推論強化フレームワークであるBAREを提案する。
BAREは最先端の性能を達成し,既存手法と比較して計算効率が優れていることを示す。
- 参考スコア(独自算出の注目度): 30.694164546429928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Grounding (VG), which aims to locate a specific region referred to by expressions, is a fundamental yet challenging task in the multimodal understanding fields. While recent grounding transfer works have advanced the field through one-tower architectures, they still suffer from two primary limitations: (1) over-entangled multimodal representations that exacerbate deceptive modality biases, and (2) insufficient semantic reasoning that hinders the comprehension of referential cues. In this paper, we propose BARE, a bias-aware and reasoning-enhanced framework for one-tower visual grounding. BARE introduces a mechanism that preserves modality-specific features and constructs referential semantics through three novel modules: (i) language salience modulator, (ii) visual bias correction and (iii) referential relationship enhancement, which jointly mitigate multimodal distractions and enhance referential comprehension. Extensive experimental results on five benchmarks demonstrate that BARE not only achieves state-of-the-art performance but also delivers superior computational efficiency compared to existing approaches. The code is publicly accessible at https://github.com/Marloweeee/BARE.
- Abstract(参考訳): 視覚的グラウンドリング(VG)は、表現によって参照される特定の領域を特定することを目的としており、マルチモーダル理解分野における基本的な課題である。
近年の接地移動研究は1towerアーキテクチャを通して分野を前進させてきたが、(1)知覚的モダリティバイアスを悪化させる過剰に絡み合ったマルチモーダル表現、(2)参照的手がかりの理解を妨げる意味的推論の不足という2つの主要な制限に悩まされている。
本稿では,1towerビジュアルグラウンドティングのためのバイアス認識および推論強化フレームワークであるBAREを提案する。
BAREは、モダリティ固有の特徴を保存し、3つの新しいモジュールを通して参照意味論を構築するメカニズムを導入している。
(i)言語サリエンス変調器
(二)視覚バイアス補正及び
三 参照関係の強化で、マルチモーダルな気晴らしを和らげ、参照理解を高めること。
5つのベンチマークによる大規模な実験結果から,BAREは最先端の性能を達成できるだけでなく,既存の手法よりも優れた計算効率を実現することが示された。
コードはhttps://github.com/Marloweeee/BAREで公開されている。
関連論文リスト
- Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - Vision-Language Semantic Aggregation Leveraging Foundation Model for Generalizable Medical Image Segmentation [5.597576681565333]
本稿では,期待最大化(EM)アグリゲーション機構とテキストガイド付きPixelデコーダを提案する。
後者は、ドメイン不変のテキスト知識を利用して、深い視覚的表現を効果的に導くことによって、意味的ギャップを埋めるように設計されている。
提案手法は,複数の領域一般化ベンチマークにおいて,既存のSOTA手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-09-10T13:16:30Z) - Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models [42.75418134743927]
Reason-RFTは視覚的推論のための2段階強化微調整フレームワークである。
第一に、CoTデータをキュレートしたスーパービジョンファインチューニング(SFT)は、ビジョンランゲージモデル(VLM)の推論ポテンシャルを活性化する
第2に、グループ相対政策最適化(GRPO)に基づく強化学習は、複数の推論応答対を生成し、ドメインシフトへの適応性を高める。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。