論文の概要: Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding
- arxiv url: http://arxiv.org/abs/2604.13313v1
- Date: Tue, 14 Apr 2026 21:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.30663
- Title: Concrete Jungle: Towards Concreteness Paved Contrastive Negative Mining for Compositional Understanding
- Title(参考訳): コンクリートジャングル : コントラスト負マイニングによる構成的理解に向けて
- Authors: Eun Woo Im, Dhruv Madhwal, Vivek Gupta,
- Abstract要約: ビジョンランゲージモデル(Vision-Language Models)は、優れた能力を示すが、しばしば構成的推論に苦しむ。
本研究は, 陰性試料有効性の基本的な決定因子として, 語彙的特異性を確立した。
Slipformと名付けられた統合フレームワークは、様々な構成評価ベンチマークで最先端の精度を実現している。
- 参考スコア(独自算出の注目度): 10.95036747579563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models demonstrate remarkable capabilities but often struggle with compositional reasoning, exhibiting vulnerabilities regarding word order and attribute binding. This limitation arises from a scarcity of informative samples needed to differentiate subtle semantic variations during contrastive pretraining. Although hard negative mining offers a promising remedy, existing methods lack explicit mechanisms to dictate which linguistic elements undergo modification. Instead of engineering generative architectures, this study establishes lexical concreteness as a fundamental determinant of negative sample efficacy. Modifying highly concrete terms generates more pronounced structural and visual discrepancies, providing a substantially stronger learning signal. Leveraging this principle, ConcretePlant is proposed to systematically isolate and manipulate perceptually grounded concepts. Analyses of the InfoNCE further reveals a severe gradient imbalance, where easily distinguishable pairs disproportionately overwhelm the optimization process and restrict the bandwidth available for nuanced learning. To resolve this degradation, the Cement loss is formulated utilizing a margin-based approach. By correlating psycholinguistic scores with sample difficulty, this objective dynamically calibrates the penalization applied to individual training pairs. Comprehensive evaluations substantiate these theoretical claims. The integrated framework, designated as Slipform, achieves state-of-the-art accuracy across diverse compositional evaluation benchmarks, general cross-modal retrieval, single and multi label linear probing.
- Abstract(参考訳): 視覚言語モデルは優れた能力を示すが、しばしば構成的推論に悩まされ、単語の順序や属性のバインディングに関する脆弱性を示す。
この制限は、対照的な事前訓練中に微妙な意味的変動を区別するために必要な情報的サンプルの不足から生じる。
ハード・ネガティブ・マイニングは有望な治療法を提供するが、既存の手法ではどの言語要素が修正されるかを規定する明確なメカニズムが欠如している。
本研究は, 工学的生成的アーキテクチャの代わりに, 負のサンプル有効性の基本的な決定因子として語彙的特異性を確立する。
非常に具体的な用語を変更することで、より顕著な構造的および視覚的相違が生じ、より強力な学習信号が得られる。
この原理を生かして、概念を体系的に分離し、操作するための具体的プラントが提案されている。
InfoNCEの分析により、容易に区別可能なペアが最適化プロセスを不均等に超過し、ニュアンス学習に利用可能な帯域幅を制限するという、厳格な勾配不均衡が明らかになる。
この劣化を解決するために、マージンベースのアプローチを用いてセメントの損失を定式化する。
心理言語学的なスコアとサンプルの難易度を関連付けることにより、この目的は個々のトレーニングペアに適用される罰則を動的に校正する。
総合的な評価はこれらの理論的な主張を裏付けるものである。
Slipformと名付けられたこの統合フレームワークは、様々な構成評価ベンチマーク、一般的なクロスモーダル検索、シングルおよびマルチラベル線形探索など、最先端の精度を実現している。
関連論文リスト
- Delayed Homomorphic Reinforcement Learning for Environments with Delayed Feedback [11.866061471514582]
遅延したフィードバックはマルコフの仮定を破り、学習と制御を妨げる。
本稿では,MDP準同型に基づく枠組みを提案する。
MuJoCoベンチマークにおける連続制御タスクの実験は、我々のアルゴリズムが強化ベースのベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2026-04-04T08:38:52Z) - MSA-Thinker: Discrimination-Calibration Reasoning with Hint-Guided Reinforcement Learning for Multimodal Sentiment Analysis [5.1150258716324055]
マルチモーダル感情分析は、テキスト、聴覚、視覚のモダリティを統合することで人間の感情を理解することを目的としている。
CoT(Chain-of-Thought)推論を取り入れた既存の手法は、高いアノテーションコストによって妨げられる。
本研究では,Hintに基づく強化学習と構造化識別校正(DC)推論を統合した新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-10T12:48:41Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Causality-aligned Prompt Learning via Diffusion-based Counterfactual Generation [45.395353088233556]
理論的には、$textbfDi$ffusion-based $textbfC$ounterf$textbfa$ctual $textbfp$rompt学習フレームワークを導入します。
本手法は,画像分類,画像テキスト検索,視覚的質問応答などのタスクにおいて,特に目に見えないカテゴリにおいて優れた優位性を示す。
論文 参考訳(メタデータ) (2025-07-26T09:27:52Z) - Paying Alignment Tax with Contrastive Learning [6.232983467016873]
現在のデバイアスのアプローチは、事実の正確性や知識の保持といったモデル能力の低下をもたらすことが多い。
本稿では, 慎重に構築された肯定的, 否定的な例を通して学習する, 対照的な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-25T21:26:18Z) - Regularized Neural Ensemblers [55.15643209328513]
本研究では,正規化ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ランダムにベースモデル予測をドロップすることで,アンサンブルモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性の低い境界を提供し、過度な適合を減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - Consistency Training with Virtual Adversarial Discrete Perturbation [17.311821099484987]
本稿では,オリジナル入力と摂動入力とが類似するトレーニングモデルの予測を強制する効果的な一貫性トレーニングフレームワークを提案する。
少数のトークンを置き換えることで得られる仮想対向離散ノイズは、トレーニングモデルの決定境界を効率的にプッシュする。
論文 参考訳(メタデータ) (2021-04-15T07:49:43Z) - Deep Clustering by Semantic Contrastive Learning [67.28140787010447]
Semantic Contrastive Learning (SCL) と呼ばれる新しい変種を紹介します。
従来のコントラスト学習とディープクラスタリングの両方の特徴を探求する。
コントラスト学習と深層クラスタリングの強みを統一的なアプローチで増幅することができる。
論文 参考訳(メタデータ) (2021-03-03T20:20:48Z) - Learning Causal Semantic Representation for Out-of-Distribution
Prediction [125.38836464226092]
因果推論に基づく因果意味生成モデル(CSG)を提案し,その2つの要因を別々にモデル化する。
CSGはトレーニングデータに適合させることで意味的因子を識別できることを示し、この意味的識別はOOD一般化誤差の有界性を保証する。
論文 参考訳(メタデータ) (2020-11-03T13:16:05Z) - Learning explanations that are hard to vary [75.30552491694066]
例を越えた平均化は、異なる戦略を縫合する記憶とパッチワークのソリューションに有利であることを示す。
そこで我々は論理ANDに基づく単純な代替アルゴリズムを提案し,実験的に検証する。
論文 参考訳(メタデータ) (2020-09-01T10:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。