論文の概要: CLAY: Conditional Visual Similarity Modulation in Vision-Language Embedding Space
- arxiv url: http://arxiv.org/abs/2604.11539v1
- Date: Mon, 13 Apr 2026 14:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.609049
- Title: CLAY: Conditional Visual Similarity Modulation in Vision-Language Embedding Space
- Title(参考訳): CLAY:視覚言語埋め込み空間における条件付き視覚類似性変調
- Authors: Sohwi Lim, Lee Hyoseok, Jungjoon Park, Tae-Hyun Oh,
- Abstract要約: CLAYは、事前訓練された視覚言語モデル(VLM)の埋め込み空間を、追加の訓練なしにテキスト条件の類似性空間として再構成する適応的類似性計算法である。
CLAYは,従来よりも高い検索精度と計算効率を実現している。
- 参考スコア(独自算出の注目度): 22.58510807687588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human perception of visual similarity is inherently adaptive and subjective, depending on the users' interests and focus. However, most image retrieval systems fail to reflect this flexibility, relying on a fixed, monolithic metric that cannot incorporate multiple conditions simultaneously. To address this, we propose CLAY, an adaptive similarity computation method that reframes the embedding space of pretrained Vision-Language Models (VLMs) as a text-conditional similarity space without additional training. This design separates the textual conditioning process and visual feature extraction, allowing highly efficient and multi-conditioned retrieval with fixed visual embeddings. We also construct a synthetic evaluation dataset CLAY-EVAL, for comprehensive assessment under diverse conditioned retrieval settings. Experiments on standard datasets and our proposed dataset show that CLAY achieves high retrieval accuracy and notable computational efficiency compared to previous works.
- Abstract(参考訳): 視覚的類似性に対する人間の認識は、ユーザーの興味や焦点によって、本質的に適応的で主観的である。
しかし、ほとんどの画像検索システムは、複数の条件を同時に組み込むことができない固定されたモノリシックなメトリクスに依存して、この柔軟性を反映しない。
そこで本研究では,事前学習された視覚言語モデル(VLM)の埋め込み空間を,追加の訓練を伴わずにテキスト条件の類似性空間として再構成する適応的類似性計算手法であるCLAYを提案する。
この設計は、テキスト条件付けプロセスと視覚特徴抽出を分離し、固定された視覚埋め込みによる高効率かつ多条件検索を可能にする。
また,多様な条件付き検索条件下での総合評価のための総合評価データセットCLAY-EVALを構築した。
標準データセットと提案データセットを用いた実験により,CLAYは従来よりも高い検索精度と顕著な計算効率が得られることが示された。
関連論文リスト
- Adding simple structure at inference improves Vision-Language Compositionality [15.785274903236663]
本稿では,イメージとキャプションが与えられた場合,イメージを小さな作物に分割する,推論時に単純な構造を加えることを提案する。
提案手法は,評価された視覚言語モデルの性能をトレーニングなしで継続的に改善する。
論文 参考訳(メタデータ) (2025-06-11T13:06:25Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models [21.17975741743583]
近年、CLIP(CLIP)のような事前訓練された視覚言語モデル(VLM)を用いて、クエリイメージ全体をより細かいテキスト記述と整合させることで、ゼロショットのパフォーマンスを著しく向上させることが発見されている。
本稿では, より詳細な記述は, 画像全体よりも, クエリ画像の局所的な領域とより効果的に整合する傾向があることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-05T04:08:41Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Conditional and Residual Methods in Scalable Coding for Humans and
Machines [26.32381277880991]
本研究では,人間と機械のスケーラブルコーディングの文脈において,条件付きおよび残留符号化の手法を提案する。
我々は,コンピュータビジョンタスクで利用可能な情報を用いて,再建作業の速度歪み性能を最適化することに注力する。
論文 参考訳(メタデータ) (2023-05-04T05:32:44Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。