論文の概要: What's left can't be right -- The remaining positional incompetence of
contrastive vision-language models
- arxiv url: http://arxiv.org/abs/2311.11477v1
- Date: Mon, 20 Nov 2023 01:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:04:18.309905
- Title: What's left can't be right -- The remaining positional incompetence of
contrastive vision-language models
- Title(参考訳): 左にあるものは正しくない -- 対照的な視覚言語モデルの残りの位置的非能力
- Authors: Nils Hoehing, Ellen Rushe, Anthony Ventresque
- Abstract要約: CLIPのような対照的な視覚言語モデルは、空間的理解能力に欠けていることが判明した。
大規模なデータセットであっても、この挙動は完全に予測可能であることを示す。
- 参考スコア(独自算出の注目度): 1.534667887016089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive vision-language models like CLIP have been found to lack spatial
understanding capabilities. In this paper we discuss the possible causes of
this phenomenon by analysing both datasets and embedding space. By focusing on
simple left-right positional relations, we show that this behaviour is entirely
predictable, even with large-scale datasets, demonstrate that these relations
can be taught using synthetic data and show that this approach can generalise
well to natural images - improving the performance on left-right relations on
Visual Genome Relations.
- Abstract(参考訳): CLIPのような対照的な視覚言語モデルは、空間的理解能力に欠けていた。
本稿では,この現象の原因を,データセットと埋め込み空間の両方を分析して考察する。
単純な左-右の位置関係に着目して,大規模なデータセットであっても,この挙動が完全に予測可能であることを示し,これらの関係を合成データを用いて学習できることを示し,このアプローチが自然画像にうまく一般化できることを示し,視覚ゲノム関係における左-右関係の性能を向上させる。
関連論文リスト
- Entity or Relation Embeddings? An Analysis of Encoding Strategies for Relation Extraction [19.019881161010474]
関係抽出は、本質的にはテキスト分類問題であり、事前学習言語モデル(LM)を微調整することで取り組める。
既存のアプローチでは、LMを微調整して頭と尾のエンティティの埋め込みを学習し、それらのエンティティの埋め込みから関係を予測する。
本稿では,より直接的な方法で関係を捉えることにより,関係抽出モデルを改善することができるという仮説を立てる。
論文 参考訳(メタデータ) (2023-12-18T09:58:19Z) - Learning Complete Topology-Aware Correlations Between Relations for Inductive Link Prediction [121.65152276851619]
関係性間の意味的相関は本質的にエッジレベルとエンティティ非依存であることを示す。
本研究では,関係関係のトポロジ・アウェア・コレレーションをモデル化するための新しいサブグラフベース手法,TACOを提案する。
RCNのポテンシャルをさらに活用するために, 完全コモンニアインダストリアルサブグラフを提案する。
論文 参考訳(メタデータ) (2023-09-20T08:11:58Z) - Sparse Relational Reasoning with Object-Centric Representations [78.83747601814669]
対象中心表現の操作において,リレーショナルニューラルアーキテクチャによって学習されたソフトルールの構成可能性について検討する。
特に特徴量の増加は,いくつかのモデルの性能を向上し,より単純な関係をもたらすことが判明した。
論文 参考訳(メタデータ) (2022-07-15T14:57:33Z) - On Neural Architecture Inductive Biases for Relational Tasks [76.18938462270503]
合成ネットワーク一般化(CoRelNet)と呼ばれる類似度分布スコアに基づく簡単なアーキテクチャを導入する。
単純なアーキテクチャの選択は、分布外一般化において既存のモデルより優れていることが分かる。
論文 参考訳(メタデータ) (2022-06-09T16:24:01Z) - A Simple yet Effective Relation Information Guided Approach for Few-Shot
Relation Extraction [22.60428265210431]
Few-Shot Relation extractは、文中の一対の実体の関係を、各関係にいくつかのラベル付き例で訓練することによって予測することを目的としている。
原型ネットワークに基づくモデル学習を支援するための関係情報を導入した最近の研究もある。
関係情報はモデルにより明確かつ効果的に導入できると論じる。
論文 参考訳(メタデータ) (2022-05-19T13:03:01Z) - Rot-Pro: Modeling Transitivity by Projection in Knowledge Graph
Embedding [4.9271170227460255]
知識グラフ埋め込みモデルは、エンティティ間の不足リンク(関係)を予測するために、知識グラフ内のエンティティと関係の表現を学習する。
私たちは、非常に一般的な関係パターンである推移性が、まだ既存のモデルで完全にサポートされていないことを示しています。
本稿では,プロジェクションと回転を組み合わせたRot-Proモデルを提案する。
実験結果から,提案したRot-Proモデルは,移動度パターンを効果的に学習し,リンク予測タスクにおける最先端結果を実現することがわかった。
論文 参考訳(メタデータ) (2021-10-27T14:13:40Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z) - Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。
画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。
本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文 参考訳(メタデータ) (2020-07-19T01:35:08Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Learning Relation Ties with a Force-Directed Graph in Distant Supervised
Relation Extraction [39.73191604776768]
関係関係は、異なる関係間の相関関係と相互排除として定義されるが、遠方の教師付き関係抽出には重要である。
既存のアプローチは、局所的な依存関係を丁寧に学習することで、この特性をモデル化する。
本稿では,関係関係を包括的に学習する,力によるグラフに基づく関係抽出モデルを提案する。
論文 参考訳(メタデータ) (2020-04-21T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。