論文の概要: What can Computer Vision learn from Ranganathan?
- arxiv url: http://arxiv.org/abs/2601.22634v1
- Date: Fri, 30 Jan 2026 06:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.280977
- Title: What can Computer Vision learn from Ranganathan?
- Title(参考訳): コンピュータービジョンはRanganathanから何を学ぶことができるのか?
- Authors: Mayukh Bagchi, Fausto Giunchiglia,
- Abstract要約: コンピュータビジョンにおけるセマンティックギャップ問題(SGP)は、視覚的意味論と語彙的意味論のミスアライメントから生じる。
本稿では,S.R. Ranganathanの分類原理がSGPに対処し,高品質なCVデータセットを設計するための出発点となることを示唆する。
- 参考スコア(独自算出の注目度): 19.679785258449066
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Semantic Gap Problem (SGP) in Computer Vision (CV) arises from the misalignment between visual and lexical semantics leading to flawed CV dataset design and CV benchmarks. This paper proposes that classification principles of S.R. Ranganathan can offer a principled starting point to address SGP and design high-quality CV datasets. We elucidate how these principles, suitably adapted, underpin the vTelos CV annotation methodology. The paper also briefly presents experimental evidence showing improvements in CV annotation and accuracy, thereby, validating vTelos.
- Abstract(参考訳): コンピュータビジョン(CV)におけるセマンティックギャップ問題(SGP)は、視覚的意味論と語彙的意味論の相違から生じる。
本稿では,S.R. Ranganathanの分類原理がSGPに対処し,高品質なCVデータセットを設計するための出発点となることを示唆する。
我々は、これらの原則がvTelos CVアノテーション方法論の基盤となっていることを解明する。
また,CVアノテーションと精度の向上を示す実験的な証拠を簡潔に提示し,vTelosの有効性を検証した。
関連論文リスト
- GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks [41.488394198111976]
CLIPのような視覚言語モデル(VLM)は、分類ベンチマークで星のゼロショット能力を示している。
ラベル付けされていない下流タスクで最高のパフォーマンスでVLMを選択するのは簡単ではありません。
本稿では、教師なしの下流データセットのみを利用できる、テクスチャファイン教師付き視覚言語モデル選択の問題を紹介する。
論文 参考訳(メタデータ) (2024-12-30T03:26:53Z) - Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization [77.36122979882649]
コンピュータビジョン(CV)は自然言語処理(NLP)で観測されるゼロショットタスクの一般化をまだ完全に達成していない
本稿では,ゼロショットタスクの一般化において重要な障壁となる離散的・用語的タスク定義をCVが採用するという考えを考察する。
我々の仮説は、これらの用語的定義により、以前に見いだされたタスクを真に理解せずに、ディープモデルは新しいタスクに一般化するのに苦労する、というものである。
論文 参考訳(メタデータ) (2024-12-24T16:08:25Z) - Refining Skewed Perceptions in Vision-Language Contrastive Models through Visual Representations [0.033483662989441935]
大規模視覚言語コントラストモデル(VLCM)は、様々な下流タスクで顕著な成功を収めている。
それらの利点にもかかわらず、これらのモデルは現実のデータの不均等な分布からバイアスを受け継ぎ、実際の環境に関する誤解を招く。
本研究では,CLIPの下流アプリケーションへの埋め込みから,単純な線形プローブを用いてタスク固有のコア特徴を効果的に抽出する方法について検討する。
論文 参考訳(メタデータ) (2024-05-22T22:03:11Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Responsive parallelized architecture for deploying deep learning models
in production environments [0.10152838128195467]
リクルーターは、カリキュラムヴィタエ(CV)文書を閲覧することで、求職者の候補を簡単にショートリストできる。
非構造化文書 CV は候補者のポートフォリオを保持し、詳細をリストアップするエンティティを命名する。
本研究の目的は、CVエンティティを体系的に予測するWeb指向で応答性の高い計算パイプラインの設計と提案である。
論文 参考訳(メタデータ) (2021-12-15T04:22:56Z) - Contrastive Visual-Linguistic Pretraining [48.88553854384866]
コントラスト的視覚言語事前学習は、コントラスト的学習に基づいて構築された視覚的自己監督的損失を構成する。
VQA, GQA, NLVR2などの下流タスクで評価した。
論文 参考訳(メタデータ) (2020-07-26T14:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。