論文の概要: Half-Truths Break Similarity-Based Retrieval
- arxiv url: http://arxiv.org/abs/2602.23906v1
- Date: Fri, 27 Feb 2026 10:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.383336
- Title: Half-Truths Break Similarity-Based Retrieval
- Title(参考訳): ハーフトルースは類似性に基づく検索を破る
- Authors: Bora Kargi, Arnas Uselis, Seong Joon Oh,
- Abstract要約: テキスト記述が追加の詳細で拡張されると、その詳細が間違っている場合は、画像とテキストの類似性が低下する。
CLIPスタイルのデュアルエンコーダはこの直観に反することが多い。
本稿では,キャプションをエンティティとリレーショナルユニットに分解するCS-CLIPを提案する。
- 参考スコア(独自算出の注目度): 21.70058524831519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When a text description is extended with an additional detail, image-text similarity should drop if that detail is wrong. We show that CLIP-style dual encoders often violate this intuition: appending a plausible but incorrect object or relation to an otherwise correct description can increase the similarity score. We call such cases half-truths. On COCO, CLIP prefers the correct shorter description only 40.6% of the time, and performance drops to 32.9% when the added detail is a relation. We trace this vulnerability to weak supervision on caption parts: contrastive training aligns full sentences but does not explicitly enforce that individual entities and relations are grounded. We propose CS-CLIP (Component-Supervised CLIP), which decomposes captions into entity and relation units, constructs a minimally edited foil for each unit, and fine-tunes the model to score the correct unit above its foil while preserving standard dual-encoder inference. CS-CLIP raises half-truth accuracy to 69.3% and improves average performance on established compositional benchmarks by 5.7 points, suggesting that reducing half-truth errors aligns with broader gains in compositional understanding. Code is publicly available at: https://github.com/kargibora/CS-CLIP
- Abstract(参考訳): テキスト記述が追加の詳細で拡張されると、その詳細が間違っている場合は、画像とテキストの類似性が低下する。
私たちは、CLIPスタイルの二重エンコーダが、しばしばこの直観に反することを示します。
そのようなケースを半真実と呼ぶ。
COCOでは、CLIPは正しい短い記述を40.6%だけ好んでおり、追加された詳細が関係である場合、パフォーマンスは32.9%に低下する。
対照的な訓練は全文を整合させるが、個々の実体や関係が根拠になっていることを明示的に強制するものではない。
CS-CLIP (Component-Supervised CLIP) は,キャプションをエンティティとリレーションユニットに分解し,各ユニットに対して最小限に編集されたホイルを構築し,標準二重エンコーダ推論を保ちながら,そのホイル上の正しいユニットを微調整する。
CS-CLIPは、半真正精度を69.3%に引き上げ、確立された構成ベンチマークの平均性能を5.7ポイント改善し、半真正誤差を減らすことは、構成的理解においてより広範な利得と一致することを示唆している。
コードは、https://github.com/kargibora/CS-CLIPで公開されている。
関連論文リスト
- Not Just What's There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-tuning [23.10421006625293]
CLIPのようなビジョンランゲージモデル(VLM)は否定を理解するのに苦労する。
既存の方法は、微調整のCLIPのテキストエンコーダを通じて否定的理解を洗練し、過度に適合するリスクがある。
我々はCLIPの視覚的記述の理解能力を高めるプラグイン・アンド・プレイフレームワークであるCLIPGlassesを提案する。
論文 参考訳(メタデータ) (2026-02-24T15:55:39Z) - SuperCLIP: CLIP with Simple Classification Supervision [88.86549733903314]
Contrastive Language-Image Pretrainingは、画像とテキストを共有埋め込み空間に整列させることにより、視覚言語タスクの強力な一般化を実現する。
近年,CLIP様モデルでは,テキスト中の微細なセマンティック信号が依然として使われていないことが報告されている。
分類に基づく教師付きコントラスト学習のフレームワークであるSuperCLIPを提案する。
論文 参考訳(メタデータ) (2025-12-16T15:11:53Z) - Language as a Label: Zero-Shot Multimodal Classification of Everyday Postures under Data Scarcity [0.764671395172401]
近年のビジョン・ランゲージ・モデル(VLM)は、画像とテキストを共有空間にアライメントすることで、ゼロショットの分類を可能にする。
本研究は, 座位, 立位, 歩行・走走の0ショット分類において, 即時特異性がどの程度影響するかを検討する。
論文 参考訳(メタデータ) (2025-10-15T09:53:46Z) - L-CLIPScore: a Lightweight Embedding-based Captioning Metric for Evaluating and Training [40.87934127615281]
L-CLIPScoreと呼ばれる新しい埋め込み型キャプション計算を提案する。
L-CLIPScoreは、CLIPから圧縮・蒸留されたデュアルエンコーダアーキテクチャである軽量CLIPから計算される。
我々は,L-CLIPScoreを審査員として用いてキャプション品質を評価する際に,L-CLIPScoreの有効性と有効性を検証するために,徹底的な実験を行った。
論文 参考訳(メタデータ) (2025-07-11T16:08:12Z) - Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting [86.15347226865826]
We design an new end-to-end object-aware lifting approach, called Unified-Lift。
コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。
LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
論文 参考訳(メタデータ) (2025-03-18T08:42:23Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations [43.484570564890866]
既存の視覚言語モデル(VLM)は、テキスト記述を単位として扱い、個々の概念をプロンプトで混乱させる。
CC-Negは,228,246のイメージ,真のキャプション,それに対応する否定的なキャプションを含むデータセットである。
提案するCoN-CLIPフレームワークであるCLIPの対照的な損失に対する修正とともにCC-Negを用いることで,否定の理解が向上した。
論文 参考訳(メタデータ) (2024-03-29T17:33:42Z) - FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos [19.08882495584709]
セマンティックな特性を損なうことなく,CLIPの細粒度・統語能力を高めることが可能であることを示す。
私たちは、高品質で包括的で比較的小さなデータセットにCLIPを効率的に適用します。
我々は、細部指向のセマンティック理解を保った強力な視覚表現であるファイングラインドCLIP(FiGCLIP)を学習する。
論文 参考訳(メタデータ) (2024-01-15T13:27:34Z) - Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting [111.49781716597984]
本稿では,教師付きおよびゼロショット性能のバランスをとるためのマルチモーダル・プロンプト学習手法を提案する。
Kinetics-600, HMDB51, UCF101では, 教師付き環境での競争力を維持しながら, 最先端のゼロショット性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-06T18:00:04Z) - ComCLIP: Training-Free Compositional Image and Text Matching [19.373706257771673]
コントラスト言語-画像事前訓練は画像とテキストのマッチングに優れたゼロショット性能を示した。
我々は新しいtextbftextittraining-free compositional CLIP model (ComCLIP) を提案する。
ComCLIPは、入力された画像を被写体、オブジェクト、アクションのサブイメージに切り離し、CLIPのビジョンエンコーダとテキストエンコーダを構成して、合成テキスト埋め込みとサブイメージ埋め込みに対する進化的なマッチングを実行する。
論文 参考訳(メタデータ) (2022-11-25T01:37:48Z) - Improving Factual Consistency in Summarization with Compression-Based
Post-Editing [146.24839415743358]
この問題に対処するためのモデルに依存しない方法は、生成された要約を後編集することであることを示す。
本稿では,文圧縮データを用いて後編集モデルを訓練し,特別なトークンでマークされた外在的エンティティエラーを要約する手法を提案する。
我々は,このモデルがROUGEを維持しながら事実整合性を向上し,XSum上でのエンティティ精度を最大30%向上し,他のポストエディタ上でも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-11T13:35:38Z) - Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for
Improved Generalization [93.95299500688286]
本稿では,出力の妥当性制約を考慮した構造化出力の予測問題に焦点をあてる。
本稿では,事前学習したデノイザを組み込んだ予測器を微調整するファインチューニングを提案する。
2層ReLUネットワークの場合、構成した微調整が予測器の複雑さを著しく低減することを示す。
論文 参考訳(メタデータ) (2020-06-29T17:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。