論文の概要: Towards Addressing the Misalignment of Object Proposal Evaluation for
Vision-Language Tasks via Semantic Grounding
- arxiv url: http://arxiv.org/abs/2309.00215v1
- Date: Fri, 1 Sep 2023 02:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 14:41:02.055117
- Title: Towards Addressing the Misalignment of Object Proposal Evaluation for
Vision-Language Tasks via Semantic Grounding
- Title(参考訳): セマンティックグラウンドリングによる視覚言語課題に対するオブジェクト提案評価のミスアライメントへの取り組み
- Authors: Joshua Feinglass and Yezhou Yang
- Abstract要約: Vision-Language (VL)タスクで生成されたオブジェクト提案のパフォーマンスは、現在利用可能なすべてのアノテーションで評価されている。
我々の研究は、この現象の研究として役立ち、セマンティックグラウンドディングの有効性を探求し、その効果を緩和する。
提案手法は一貫性があり,画像キャプションの指標と人間のアノテーションによって選択されたアノテーションとのアライメントが大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 36.03994217853856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object proposal generation serves as a standard pre-processing step in
Vision-Language (VL) tasks (image captioning, visual question answering, etc.).
The performance of object proposals generated for VL tasks is currently
evaluated across all available annotations, a protocol that we show is
misaligned - higher scores do not necessarily correspond to improved
performance on downstream VL tasks. Our work serves as a study of this
phenomenon and explores the effectiveness of semantic grounding to mitigate its
effects. To this end, we propose evaluating object proposals against only a
subset of available annotations, selected by thresholding an annotation
importance score. Importance of object annotations to VL tasks is quantified by
extracting relevant semantic information from text describing the image. We
show that our method is consistent and demonstrates greatly improved alignment
with annotations selected by image captioning metrics and human annotation when
compared against existing techniques. Lastly, we compare current detectors used
in the Scene Graph Generation (SGG) benchmark as a use case, which serves as an
example of when traditional object proposal evaluation techniques are
misaligned.
- Abstract(参考訳): オブジェクトの提案はビジョンランゲージ(VL)タスク(画像キャプション、視覚的質問応答など)の標準的な前処理ステップとして機能する。
VLタスクで生成されたオブジェクト提案のパフォーマンスは、現在、利用可能なすべてのアノテーションで評価されています。
我々の研究は、この現象の研究として役立ち、セマンティックグラウンドディングの有効性を探求し、その効果を緩和する。
そこで本研究では,アノテーション重要度スコアを閾値付けして選択した,利用可能なアノテーションのサブセットのみに対するオブジェクト提案の評価を提案する。
vlタスクに対するオブジェクトアノテーションの重要性は、画像を記述するテキストから関連する意味情報を抽出することで定量化される。
提案手法は,既存の手法と比較して,画像キャプションの指標と人間のアノテーションから選択したアノテーションとの整合性を大幅に向上することを示す。
最後に、scene graph generation (sgg)ベンチマークで使用されている現在の検出器をユースケースとして比較する。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Leveraging VLM-Based Pipelines to Annotate 3D Objects [68.51034848207355]
本稿では,VLMの応答に影響を与える視点などの要因を疎外する代替アルゴリズムを提案する。
テキストのみの応答をマージする代わりに、VLMの合同画像テキストの可能性を利用する。
VLMベースのパイプラインを使って764Kデータセットから764Kオブジェクトの信頼性の高いアノテーションを生成する方法を示す。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - How to Evaluate the Generalization of Detection? A Benchmark for
Comprehensive Open-Vocabulary Detection [25.506346503624894]
我々は,9つのサブタスクを含むOVDEvalという新しいベンチマークを提案し,コモンセンス知識の評価を導入する。
データセットは、モデルによる視覚的および言語的入力の真の理解に挑戦する強烈なネガティブを提供するために、慎重に作成されます。
論文 参考訳(メタデータ) (2023-08-25T04:54:32Z) - Incremental Image Labeling via Iterative Refinement [4.7590051176368915]
特に、意味ギャップ問題の存在は、画像から抽出した情報とその言語的記述との間に、多対多のマッピングをもたらす。
この避けられないバイアスにより、現在のコンピュータビジョンタスクのパフォーマンスはさらに低下する。
我々は、ラベリングプロセスを駆動するガイドラインを提供するために、知識表現(KR)ベースの方法論を導入する。
論文 参考訳(メタデータ) (2023-04-18T13:37:22Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Exploring Conditional Text Generation for Aspect-Based Sentiment
Analysis [28.766801337922306]
アスペクトベース感情分析(Aspect-based sentiment analysis、ABSA)は、ユーザ生成レビューを処理して評価対象を決定するNLPタスクである。
本稿では,ABSAを抽象的な要約型条件文生成タスクに変換し,目的,側面,極性を用いて補助文を生成することを提案する。
論文 参考訳(メタデータ) (2021-10-05T20:08:25Z) - Evaluation of Audio-Visual Alignments in Visually Grounded Speech Models [2.1320960069210484]
本研究は,視覚的接地音声(VGS)モデルを用いたマルチモーダル学習の研究である。
視覚オブジェクトと音声単語の整列におけるモデル性能評価のための体系的指標を提案する。
クロスモーダル・アテンションはモデルのセマンティック・クロスモーダル検索性能の向上に役立つことを示す。
論文 参考訳(メタデータ) (2021-07-05T12:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。