論文の概要: Extract Free Dense Misalignment from CLIP
- arxiv url: http://arxiv.org/abs/2412.18404v1
- Date: Tue, 24 Dec 2024 12:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:06.117372
- Title: Extract Free Dense Misalignment from CLIP
- Title(参考訳): CLIPからのフリーデンスミスアライメントの抽出
- Authors: JeongYeon Nam, Jinbae Im, Wonjae Kim, Taeho Kil,
- Abstract要約: この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
- 参考スコア(独自算出の注目度): 7.0247398611254175
- License:
- Abstract: Recent vision-language foundation models still frequently produce outputs misaligned with their inputs, evidenced by object hallucination in captioning and prompt misalignment in the text-to-image generation model. Recent studies have explored methods for identifying misaligned elements, aiming not only to enhance interpretability but also to improve model performance. However, current approaches primarily rely on large foundation models in a zero-shot manner or fine-tuned models with human annotations, which limits scalability due to significant computational costs. This work proposes a novel approach, dubbed CLIP4DM, for detecting dense misalignments from pre-trained CLIP, specifically focusing on pinpointing misaligned words between image and text. We carefully revamp the gradient-based attribution computation method, enabling negative gradient of individual text tokens to indicate misalignment. We also propose F-CLIPScore, which aggregates misaligned attributions with a global alignment score. We evaluate our method on various dense misalignment detection benchmarks, covering various image and text domains and misalignment types. Our method demonstrates state-of-the-art performance among zero-shot models and competitive performance with fine-tuned models while maintaining superior efficiency. Our qualitative examples show that our method has a unique strength to detect entity-level objects, intangible objects, and attributes that can not be easily detected for existing works. We conduct ablation studies and analyses to highlight the strengths and limitations of our approach. Our code is publicly available at https://github.com/naver-ai/CLIP4DM.
- Abstract(参考訳): 近年の視覚言語基盤モデルは, 字幕化における物体幻覚とテキスト・ツー・イメージ生成モデルにおける誤認識によって証明された, 入力と一致しない出力を頻繁に生成している。
近年, 解釈可能性の向上だけでなく, モデル性能の向上をめざして, 不整合要素の同定方法が検討されている。
しかしながら、現在のアプローチは、主にゼロショット方式の大規模な基礎モデルや、人間のアノテーションによる微調整モデルに依存しており、これは計算コストの大幅な削減によるスケーラビリティの制限である。
この研究は、CLIP4DMと呼ばれる新しいアプローチを提案し、特に画像とテキスト間の不一致語をピンポイントすることに焦点を当てた、事前訓練されたCLIPからの密着度を検知する。
我々は、勾配に基づく属性計算法を慎重に修正し、個々のテキストトークンの負の勾配を誤りを示すことができるようにした。
また,大域的アライメントスコアで不一致属性を集約するF-CLIPScoreを提案する。
本手法は,画像領域やテキスト領域,誤認識タイプを網羅し,多種多種多種多様の誤認識検出ベンチマークを用いて評価する。
提案手法は、ゼロショットモデルにおける最先端性能と微調整モデルとの競合性能を、優れた効率を維持しつつ示す。
定性的な例から,本手法は実体レベルオブジェクト,無形オブジェクト,および既存の作業では容易に検出できない属性を検出できる独特な強度を持つことを示す。
我々は,アプローチの強みと限界を強調するために,アブレーション研究と分析を行う。
私たちのコードはhttps://github.com/naver-ai/CLIP4DMで公開されています。
関連論文リスト
- Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Detection and Captioning with Unseen Object Classes [12.894104422808242]
テストイメージには、対応する視覚的またはテキスト的トレーニング例のない視覚的オブジェクトを含むことができる。
一般化されたゼロショット検出モデルとテンプレートに基づく文生成モデルに基づく検出駆動型アプローチを提案する。
実験の結果,提案したゼロショット検出モデルにより,MS-COCOデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-08-13T10:43:20Z) - Automatic Generation of Contrast Sets from Scene Graphs: Probing the
Compositional Consistency of GQA [16.95631509102115]
教師付きモデルは、しばしばデータアーティファクトを利用して良好なテストスコアを達成し、そのパフォーマンスはトレーニング分布外のサンプルで著しく低下します。
本稿では,リッチなセマンティック入力表現を利用して,視覚的質問応答タスクのコントラストセットを自動的に生成する新しい手法を提案する。
GQAの組成とラベルのバランスの取れた分布にもかかわらず、2つのハイパフォーマンスモデルが元のテストセットと比較して13-17%の精度で低下することがわかった。
論文 参考訳(メタデータ) (2021-03-17T12:19:25Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。