論文の概要: Referring Expression Comprehension for Small Objects
- arxiv url: http://arxiv.org/abs/2510.03701v1
- Date: Sat, 04 Oct 2025 06:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.204435
- Title: Referring Expression Comprehension for Small Objects
- Title(参考訳): 微小物体に対する参照表現の理解
- Authors: Kanoko Goto, Takumi Hirose, Mahiro Ukai, Shuhei Kurita, Nakamasa Inoue,
- Abstract要約: Referring Expression comprehension (REC) は、自然言語表現によって記述された対象対象をローカライズすることを目的としている。
近年の視覚言語学習の進歩により、RECタスクのパフォーマンスが大幅に向上した。
小型物体を対象としたRECのための新しいデータセットと手法を提案する。
- 参考スコア(独自算出の注目度): 25.961516420272176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring expression comprehension (REC) aims to localize the target object described by a natural language expression. Recent advances in vision-language learning have led to significant performance improvements in REC tasks. However, localizing extremely small objects remains a considerable challenge despite its importance in real-world applications such as autonomous driving. To address this issue, we introduce a novel dataset and method for REC targeting small objects. First, we present the small object REC (SOREC) dataset, which consists of 100,000 pairs of referring expressions and corresponding bounding boxes for small objects in driving scenarios. Second, we propose the progressive-iterative zooming adapter (PIZA), an adapter module for parameter-efficient fine-tuning that enables models to progressively zoom in and localize small objects. In a series of experiments, we apply PIZA to GroundingDINO and demonstrate a significant improvement in accuracy on the SOREC dataset. Our dataset, codes and pre-trained models are publicly available on the project page.
- Abstract(参考訳): Referring Expression comprehension (REC) は、自然言語表現によって記述された対象対象をローカライズすることを目的としている。
近年の視覚言語学習の進歩により、RECタスクのパフォーマンスが大幅に向上した。
しかしながら、非常に小さな物体をローカライズすることは、自律運転のような現実の応用において重要であるにもかかわらず、依然として大きな課題である。
この問題に対処するために,小型オブジェクトを対象としたRECのための新しいデータセットと手法を提案する。
まず,小型オブジェクトREC(SOREC)データセットについて述べる。このデータセットは,運転シナリオにおいて,10万対の参照表現と,それに対応する小さなオブジェクトのバウンディングボックスで構成される。
第二に、パラメータ効率の良い微調整用アダプターモジュールであるプログレッシブ・イテレーティブ・ズームング・アダプタ(PIZA)を提案する。
一連の実験において, PIZA を GroundingDINO に適用し, SOREC データセットの精度を大幅に向上したことを示す。
私たちのデータセット、コード、事前訓練済みモデルは、プロジェクトページで公開されています。
関連論文リスト
- SOPSeg: Prompt-based Small Object Instance Segmentation in Remote Sensing Imagery [19.743431031185736]
リモートセンシング画像における小さなオブジェクトセグメンテーションに特化して設計された,プロンプトベースのフレームワークSOPSegを提案する。
きめ細かい詳細を保存するための領域適応倍率戦略を取り入れており、エッジ予測とプログレッシブ改良を統合したカスタマイズデコーダを採用している。
SOPSegは、既存のメソッドを小さなオブジェクトセグメンテーションで上回り、リモートセンシングタスクのための効率的なデータセット構築を容易にする。
論文 参考訳(メタデータ) (2025-09-03T04:25:03Z) - Re-Aligning Language to Visual Objects with an Agentic Workflow [73.73778652260911]
言語に基づくオブジェクト検出は、視覚オブジェクトを言語表現に合わせることを目的としている。
近年の研究では視覚言語モデル(VLM)を活用して視覚オブジェクトに対する人間的な表現を自動的に生成している。
画像やテキストのプロンプトを適応的に調整することで,視覚オブジェクトに言語を適応させるエージェントワークフローを提案する。
論文 参考訳(メタデータ) (2025-03-30T16:41:12Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。
提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。
完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-16T09:14:32Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - Language-Conditioned Observation Models for Visual Object Search [12.498575839909334]
我々は、部分的に観測可能なマルコフ決定過程(POMDP)として問題に反応することで、現実的な対象探索のギャップを埋める。
ニューラルネットワークの出力を言語条件観測モデル(LCOM)に組み込んで,動的に変化するセンサノイズを表現する。
本稿では,Boston Dynamics Spotロボットを用いて,複雑な自然言語オブジェクト記述を処理し,室内環境におけるオブジェクトの効率的な発見を可能にする。
論文 参考訳(メタデータ) (2023-09-13T19:30:53Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。