論文の概要: DisCoCLIP: A Distributional Compositional Tensor Network Encoder for Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2509.21287v1
- Date: Thu, 25 Sep 2025 15:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.017722
- Title: DisCoCLIP: A Distributional Compositional Tensor Network Encoder for Vision-Language Understanding
- Title(参考訳): DisCoCLIP:視覚言語理解のための分散構成テンソルネットワークエンコーダ
- Authors: Kin Ian Lo, Hala Hawashin, Mina Abbaszadeh, Tilen Limback-Stokin, Hadi Wazni, Mehrnoosh Sadrzadeh,
- Abstract要約: 本稿では,構文構造を符号化するマルチモーダルエンコーダであるDisCoCLIPを紹介する。
DisCoCLIPは動詞のセマンティクスや単語の順序に対する感度を著しく改善する。
その結果、テンソルネットワークによる明示的な言語構造の埋め込みは、解釈可能なパラメータ効率の表現をもたらすことが示された。
- 参考スコア(独自算出の注目度): 0.1436722658125468
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent vision-language models excel at large-scale image-text alignment but often neglect the compositional structure of language, leading to failures on tasks that hinge on word order and predicate-argument structure. We introduce DisCoCLIP, a multimodal encoder that combines a frozen CLIP vision transformer with a novel tensor network text encoder that explicitly encodes syntactic structure. Sentences are parsed with a Combinatory Categorial Grammar parser to yield distributional word tensors whose contractions mirror the sentence's grammatical derivation. To keep the model efficient, high-order tensors are factorized with tensor decompositions, reducing parameter count from tens of millions to under one million. Trained end-to-end with a self-supervised contrastive loss, DisCoCLIP markedly improves sensitivity to verb semantics and word order: it raises CLIP's SVO-Probes verb accuracy from 77.6% to 82.4%, boosts ARO attribution and relation scores by over 9% and 4%, and achieves 93.7% on a newly introduced SVO-Swap benchmark. These results demonstrate that embedding explicit linguistic structure via tensor networks yields interpretable, parameter-efficient representations that substantially improve compositional reasoning in vision-language tasks.
- Abstract(参考訳): 最近の視覚言語モデルは、大規模な画像テキストアライメントにおいて優れているが、言語の構成構造を無視することが多いため、単語順序と述語句構造にヒンジするタスクに失敗する。
本稿では,凍結したCLIPビジョン変換器と,構文構造を明示的にエンコードするテンソルネットワークテキストエンコーダを組み合わせたマルチモーダルエンコーダであるDisCoCLIPを紹介する。
文は Combinatory Categorial Grammarパーサーで解析され、文の文法的導出を反映した分散語テンソルが生成される。
モデルを効率的に保つために、高次テンソルはテンソル分解によって分解され、パラメータ数を数千万から100万以下に削減する。
DisCoCLIPは、言語意味論と単語順序に対する感度を大幅に改善し、CLIPのSVO-Probes動詞の精度を77.6%から82.4%に引き上げ、ARO属性と関係スコアを9%以上と4%以上押し上げ、新たに導入されたSVO-Swapベンチマークで93.7%を達成する。
これらの結果は、テンソルネットワークを介して明示的な言語構造を埋め込むことで、視覚言語タスクにおける構成的推論を大幅に改善する、解釈可能なパラメータ効率の表現が得られることを示している。
関連論文リスト
- SASST: Leveraging Syntax-Aware Chunking and LLMs for Simultaneous Speech Translation [16.85064064077492]
本研究は,依存関係を解析することにより,入力ストリームを意味的に完全な単位に分割する文法に基づくチャンキング戦略を提案する。
SASST(Syntax-Aware Simultaneous Speech Translation)は,凍結したWhisperエンコーダとデコーダのみのLLMを統合したエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2025-08-11T09:13:35Z) - Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations [43.484570564890866]
既存の視覚言語モデル(VLM)は、テキスト記述を単位として扱い、個々の概念をプロンプトで混乱させる。
CC-Negは,228,246のイメージ,真のキャプション,それに対応する否定的なキャプションを含むデータセットである。
提案するCoN-CLIPフレームワークであるCLIPの対照的な損失に対する修正とともにCC-Negを用いることで,否定の理解が向上した。
論文 参考訳(メタデータ) (2024-03-29T17:33:42Z) - Unsupervised Chunking with Hierarchical RNN [62.15060807493364]
本稿では,非階層的手法で単語をグループ化する構文的タスクであるチャンキングに対する教師なしアプローチを紹介する。
本稿では,単語-チャンク・チャンク-文合成をモデル化した2層階層型階層型リカレントニューラルネットワーク(HRNN)を提案する。
CoNLL-2000データセットの実験では、既存の教師なし手法よりも顕著な改善が見られ、フレーズF1スコアが最大6ポイント向上した。
論文 参考訳(メタデータ) (2023-09-10T02:55:12Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic
Parsing [55.97957664897004]
seq2seq、非自動回帰的、タスク指向を構築するための効果的なレシピは、3つのステップで発話とセマンティックフレームをマッピングする。
これらのモデルは通常、長さ予測によってボトルネックとなる。
本研究では,デコードタスクをテキスト生成からスパン予測へシフトさせる非自己回帰手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T07:02:35Z) - Multidirectional Associative Optimization of Function-Specific Word
Representations [86.87082468226387]
本稿では,関係する単語群間の関連を学習するためのニューラルネットワークフレームワークを提案する。
我々のモデルは結合関数固有の単語ベクトル空間を誘導し、例えば可塑性SVO合成のベクトルが近接して配置される。
このモデルは、共同空間においても単語群のメンバーシップに関する情報を保持し、SVO構造を前提とした複数のタスクに効果的に適用することができる。
論文 参考訳(メタデータ) (2020-05-11T17:07:20Z) - Discontinuous Constituent Parsing with Pointer Networks [0.34376560669160383]
不連続な構成木は、ドイツ語のような言語の文法的な現象を表現するのに不可欠である。
係り受け解析の最近の進歩は、ポインタネットワークが文中の単語間の構文関係を効率的に解析することに優れていることを示している。
本稿では,最も正確な不連続な構成表現を生成するニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-05T15:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。