論文の概要: Dynamic Relation Inference via Verb Embeddings
- arxiv url: http://arxiv.org/abs/2503.13021v1
- Date: Mon, 17 Mar 2025 10:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:50.811910
- Title: Dynamic Relation Inference via Verb Embeddings
- Title(参考訳): 動詞埋め込みによる動的関係推論
- Authors: Omri Suissa, Muhiim Ali, Ariana Azarbal, Hui Shen, Shekhar Pradhan,
- Abstract要約: 我々は画像から関係推論の分野を推し進めるための洞察と実践的手法を提供する。
本研究では,COCOデータセットを付加した動的リレーショナル推論(DRIVE)と,対象-関連オブジェクト三重項と対応する画像を用いた微構造CLIPと,関係検出を改善するための新たな損失関数を提案する。
- 参考スコア(独自算出の注目度): 2.8436327410529483
- License:
- Abstract: CLIP has demonstrated exceptional image-text matching capabilities due to its training on contrastive learning tasks. Past research has suggested that whereas CLIP effectively matches text to images when the matching can be achieved just by matching the text with the objects in the image, CLIP struggles when the matching depends on representing the relationship among the objects in the images (i.e., inferring relations). Previous attempts to address this limitation by training CLIP on relation detection datasets with only linguistic supervision have met with limited success. In this paper, we offer insights and practical methods to advance the field of relation inference from images. This paper approaches the task of creating a model that effectively detects relations among the objects in images by producing text and image embeddings that capture relationships through linguistic supervision. To this end, we propose Dynamic Relation Inference via Verb Embeddings (DRIVE), which augments the COCO dataset, fine-tunes CLIP with hard negatives subject-relation-object triples and corresponding images, and introduces a novel loss function to improve relation detection. Evaluated on multiple CLIP-based models, our method significantly improves zero-shot relation inference accuracy in both frozen and fine-tuned settings, significantly outperforming CLIP and state-of-the-art models while generalizing well on unseen data.
- Abstract(参考訳): CLIPは、対照的な学習タスクのトレーニングのために、例外的な画像テキストマッチング機能を示している。
過去の研究では、CLIPは画像内のオブジェクトとテキストをマッチングすることで、マッチングが達成できる場合に、テキストと画像とのマッチングを効果的に行うことを示唆している。
この制限に対処する以前の試みは、言語監督のみを備えた関係検出データセットでCLIPをトレーニングすることで、限られた成功を収めた。
本稿では,画像から関係推論の分野を推し進めるための洞察と実践的手法を提案する。
本稿では,画像中のオブジェクト間の関係を効果的に検出するモデルの構築に,言語的監督を通じて関係を捉えたテキストや画像埋め込みを生成する。
そこで本研究では,COCOデータセットを付加したDRIVE(Dynamic Relation Inference via Verb Embeddings)を提案する。
提案手法は,複数のCLIPモデルを用いて,凍結条件と微調整条件の両方においてゼロショット関係推定精度を著しく向上し,CLIPモデルと最先端モデルよりも優れ,不明瞭なデータに対してよく一般化する。
関連論文リスト
- Object-centric Binding in Contrastive Language-Image Pretraining [9.376583779399834]
本稿では, 強陰性拡張の設計に依存した, 一般的な戦略から分岐する新しいアプローチを提案する。
本研究は,事前学習したCLIP様モデルに誘導バイアスを組み込むことにより,追加のハードネガティブを使わずに構成的理解を改善することに焦点を当てる。
得られたモデルは複雑なシーンのより正確でサンプル効率の良い画像テキストマッチングへの道を開く。
論文 参考訳(メタデータ) (2025-02-19T21:30:51Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Semantic Compositions Enhance Vision-Language Contrastive Learning [46.985865191341944]
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。
本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。
CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
論文 参考訳(メタデータ) (2024-07-01T15:58:20Z) - FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced
Context-Aware Network [48.912196729711624]
Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、わずかに注釈付きサポートイメージで検索するタスクである。
本稿では,クラス間の類似性に起因するマッチングノイズを抑制するために,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。
さらに,前景と背景の余分な対応関係を符号化する新たな相関再構成モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-19T16:31:13Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。