論文の概要: Exploring Contextual Attribute Density in Referring Expression Counting
- arxiv url: http://arxiv.org/abs/2503.12460v1
- Date: Sun, 16 Mar 2025 11:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:05.102546
- Title: Exploring Contextual Attribute Density in Referring Expression Counting
- Title(参考訳): 表現数参照における文脈属性密度の探索
- Authors: Zhicheng Wang, Zhiyu Pan, Zhan Peng, Jian Cheng, Liwen Xiao, Wei Jiang, Zhiguo Cao,
- Abstract要約: Referring Expression counting (REC) アルゴリズムは、様々な微粒なテキスト表現に対して、より柔軟でインタラクティブなカウント機能を実現する。
これらのアルゴリズムは属性情報を正確な視覚パターンと正確に整合させるのに苦労する。
本稿では,文脈属性密度(CAD)推定のためのフレームワークを提案する。
我々のフレームワークは最先端のREC手法を著しく上回り、メトリクスのカウントで30%の誤差削減、ローカライズ精度で10%の改善を実現している。
- 参考スコア(独自算出の注目度): 27.699058481285967
- License:
- Abstract: Referring expression counting (REC) algorithms are for more flexible and interactive counting ability across varied fine-grained text expressions. However, the requirement for fine-grained attribute understanding poses challenges for prior arts, as they struggle to accurately align attribute information with correct visual patterns. Given the proven importance of ''visual density'', it is presumed that the limitations of current REC approaches stem from an under-exploration of ''contextual attribute density'' (CAD). In the scope of REC, we define CAD as the measure of the information intensity of one certain fine-grained attribute in visual regions. To model the CAD, we propose a U-shape CAD estimator in which referring expression and multi-scale visual features from GroundingDINO can interact with each other. With additional density supervision, we can effectively encode CAD, which is subsequently decoded via a novel attention procedure with CAD-refined queries. Integrating all these contributions, our framework significantly outperforms state-of-the-art REC methods, achieves $30\%$ error reduction in counting metrics and a $10\%$ improvement in localization accuracy. The surprising results shed light on the significance of contextual attribute density for REC. Code will be at github.com/Xu3XiWang/CAD-GD.
- Abstract(参考訳): Referring Expression counting (REC) アルゴリズムは、様々な微粒なテキスト表現に対して、より柔軟でインタラクティブなカウント機能を実現する。
しかし、微粒な属性理解の要求は、属性情報を正確な視覚的パターンと正確に整合させるのに苦労するため、先行技術に課題をもたらす。
視覚密度」の重要性が証明されていることから、現在のRECアプローチの限界は「コンテクスト属性密度」 (CAD) の下位探索に由来すると推定される。
RECの範囲では、CADを視覚領域における特定の微細な属性の情報強度の尺度として定義する。
CAD をモデル化するために,GroundingDINO の表現とマルチスケール視覚特徴を相互に参照する U-shape CAD 推定器を提案する。
人口密度の監視が加わり、CADを効果的に符号化し、CADを精細化したクエリで新しい注意手順で復号化することができる。
これらすべてのコントリビューションを統合することで、当社のフレームワークは最先端のRECメソッドを著しく上回り、カウントメトリクスのエラー削減に30\%、ローカライズ精度の10\%を実現しています。
驚くべき結果は、RECの文脈属性密度の重要性に光を当てた。
コードはgithub.com/Xu3XiWang/CAD-GDにある。
関連論文リスト
- Taming CLIP for Fine-grained and Structured Visual Understanding of Museum Exhibits [59.66134971408414]
博物館展示の微細で構造化された理解にCLIPを適用することを目的としている。
私たちのデータセットは、パブリックドメインで最初のものです。
提案手法(MUZE)は,変換器を用いた解析ネットワーク(parseNet)を用いて,CLIPのイメージ埋め込みを表構造にマッピングする方法を学習する。
論文 参考訳(メタデータ) (2024-09-03T08:13:06Z) - BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - CADReN: Contextual Anchor-Driven Relational Network for Controllable
Cross-Graphs Node Importance Estimation [4.742133065469661]
ノード重要度推定(NIE)は、外部情報を大規模言語モデルに統合するために重要である。
静的なシングルグラフの特徴に焦点を当てた従来の手法では、新しいグラフやユーザ固有の要件への適応性が欠如している。
クロスグラフNIE研究用に特別に設計された2つの新しいデータセット RIC200 と WK1K を紹介し,オープンソース化する。
論文 参考訳(メタデータ) (2024-02-06T11:29:44Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Circular Accessible Depth: A Robust Traversability Representation for
UGV Navigation [21.559882149457895]
Circular Accessible Depth (CAD)は無人地上車両(UGV)の頑健な走行性表現である
我々は,LiDARが捉えた点雲から空間的特徴を符号化する,注目に基づく多フレーム点雲融合モジュールを備えたニューラルネットワークCADNetを提案する。
論文 参考訳(メタデータ) (2022-12-28T03:13:32Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Keep CALM and Improve Visual Feature Attribution [42.784665606132]
クラスアクティベーションマッピング(クラスアクティベーションマッピング、CAM)は、複数の視覚タスクのための特徴属性法の基礎となっている。
定式化における認識のためのキューの位置を符号化する潜在変数を明示的に組み込むことにより、CAMを改善する。
結果のモデルであるクラスアクティベーション潜在マッピング(CALM)は、期待最大化アルゴリズムを用いて訓練される。
論文 参考訳(メタデータ) (2021-06-15T03:33:25Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z) - Exploring and Distilling Cross-Modal Information for Image Captioning [47.62261144821135]
このような理解には、関連した画像領域に対する視覚的注意と、コヒーレントな特徴に対する意味的注意が必要であると論じる。
トランスフォーマーに基づくグローバル・ローカル情報探索・蒸留手法を提案する。
我々のTransformerベースのモデルでは、COCOテストセットのオフラインCOCO評価においてCIDErスコアが129.3に達し、精度、速度、パラメータ予算の点で著しく効率が良い。
論文 参考訳(メタデータ) (2020-02-28T07:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。