Fugu-MT 論文翻訳(概要): Linear Spaces of Meanings: the Compositional Language of VLMs

論文の概要: Linear Spaces of Meanings: the Compositional Language of VLMs

arxiv url: http://arxiv.org/abs/2302.14383v1
Date: Tue, 28 Feb 2023 08:11:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-01 17:38:59.601696
Title: Linear Spaces of Meanings: the Compositional Language of VLMs
Title（参考訳）: 意味の線形空間:VLMの構成言語
Authors: Matthew Trager, Pramuditha Perera, Luca Zancato, Alessandro Achille, Parminder Bhatia, Bing Xiang, Stefano Soatto
Abstract要約: 事前学習された視覚言語モデルからのベクトルデータ埋め込みにおける構成構造について検討する。そこで本研究では,テキストエンコーダのラベル表現を,埋め込み空間内のベクトルの小さな集合の組み合わせとして近似する。我々は、理想語が合成概念の優れた構成近似を提供するという理論的および実証的な証拠を提供する。
参考スコア（独自算出の注目度）: 136.75377191152072
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate compositional structures in vector data embeddings from pre-trained vision-language models (VLMs). Traditionally, compositionality has been associated with algebraic operations on embeddings of words from a pre-existing vocabulary. In contrast, we seek to approximate label representations from a text encoder as combinations of a smaller set of vectors in the embedding space. These vectors can be seen as "ideal words" which can be used to generate new concepts in an efficient way. We present a theoretical framework for understanding linear compositionality, drawing connections with mathematical representation theory and previous definitions of disentanglement. We provide theoretical and empirical evidence that ideal words provide good compositional approximations of composite concepts and can be more effective than token-based decompositions of the same concepts.
Abstract（参考訳）: 事前学習された視覚言語モデル(vlms)からのベクトルデータ埋め込みにおける構成構造について検討する。伝統的に、構成性は既存の語彙からの単語の埋め込みに関する代数的操作と関連付けられている。対照的に、テキストエンコーダからのラベル表現を埋め込み空間内のベクトルの小さな集合の組み合わせとして近似することを模索する。これらのベクトルは「理想語」と見なすことができ、新しい概念を効率的に生成することができる。本稿では,線形構成性の理解,数学的表現論との結びつき,および従来の絡み合いの定義に関する理論的枠組みを提案する。我々は、理想語が合成概念のよい合成近似を提供し、同じ概念のトークンベース分解よりも効果的であるという理論的および実証的な証拠を提供する。

関連論文リスト

Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models [77.98801218316505]
大型言語モデル(LLM)は、人間のような推論を示唆する創発的な行動を示す。テキスト内概念推論におけるLLMの内部処理について検討する。
論文参考訳（メタデータ） (2026-02-08T03:14:39Z)
Fast and Accurate Explanations of Distance-Based Classifiers by Uncovering Latent Explanatory Structures [13.600836585770134]
距離ベース分類器に隠れたニューラルネットワーク構造を明らかにすることで貢献する。本稿では,2つの実践事例を通して距離モデルを説明することの全体的な有用性を示す。
論文参考訳（メタデータ） (2025-08-05T21:01:58Z)
Meaning-infused grammar: Gradient Acceptability Shapes the Geometric Representations of Constructions in LLMs [0.0]
本研究では,Large Language Models (LLMs) の内部表現が,関数注入型階調を反映しているかどうかを考察する。本研究では, Pythia-1.4$B において, 人格的嗜好の強さを体系的に変化させた5000ドルの文対のデータセットを用いて, 英語のDative 構造 (Double Object と Prepositional Object ) のニューラル表現を解析した。
論文参考訳（メタデータ） (2025-07-29T23:39:21Z)
Geometry of Semantics in Next-Token Prediction: How Optimization Implicitly Organizes Linguistic Representations [34.88156871518115]
Next-token Prediction (NTP) 最適化により、言語モデルがテキストから意味構造を抽出し、整理する。我々は、より大きな特異値に対応する概念が訓練中に学習され、自然な意味階層が生成されることを示した。この洞察は、解釈可能なセマンティックカテゴリを識別するための概念記号を組み合わせる方法である、オーサントベースのクラスタリングを動機付けている。
論文参考訳（メタデータ） (2025-05-13T08:46:04Z)
Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models [26.525531111141717]
ビジョンランゲージモデルは、テキストと画像の共有機能空間を学習し、異なるモードの入力の比較を可能にする。画像領域における構成性について検討し、合成特性の分析は視覚データのノイズと空間性によって挑戦される。本稿では,GDE(Geodesically Decomposable Embeddings)と呼ばれるフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-21T13:46:53Z)
Causal Graphical Models for Vision-Language Compositional Understanding [36.24185263818946]
提案手法は, 最先端の合成手法を大きなマージンで大幅に上回っていることを示す。さらに、はるかに大きなデータセットを使用してトレーニングされたメソッドよりも改善されている。
論文参考訳（メタデータ） (2024-12-12T15:22:03Z)
Optimal synthesis embeddings [1.565361244756411]
単語集合に対する公平な埋め込み表現が満足すべきという直感的な考え方に基づく単語埋め込み合成手法を提案する。本手法は,文の単純な言語的特徴を捉えることを目的とした探索課題の解法に優れていることを示す。
論文参考訳（メタデータ） (2024-06-10T18:06:33Z)
Interpreting CLIP with Sparse Linear Concept Embeddings (SpLiCE) [22.364723506539974]
ここでは,CLIPの潜在空間のセマンティック構造を利用して解釈可能であることを示す。本稿では,CLIP表現を,人間の解釈可能な概念の疎線形結合に変換するための新しい手法Sparse Linear Concept Embeddingsを提案する。
論文参考訳（メタデータ） (2024-02-16T00:04:36Z)
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文参考訳（メタデータ） (2023-05-06T03:57:05Z)
Variational Cross-Graph Reasoning and Adaptive Structured Semantics Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文参考訳（メタデータ） (2023-01-22T08:02:23Z)
Subspace Representations for Soft Set Operations and Sentence Similarities [17.52824249186434]
我々は,事前学習した単語埋め込み空間内の単語集合の表現とそれに対応する集合演算を実現する。線形部分空間にアプローチを基礎付けることにより、様々な集合演算の効率的な計算が可能となる。部分空間ベースの集合演算は、文類似性および集合検索タスクにおいて、ベクトルベースの演算よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-24T08:34:10Z)
Unsupervised Distillation of Syntactic Information from Contextualized Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文参考訳（メタデータ） (2020-10-11T15:13:18Z)
A Comparative Study on Structural and Semantic Properties of Sentence Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文参考訳（メタデータ） (2020-09-23T15:45:32Z)
Lattice Representation Learning [6.427169570069738]
ユークリッド空間に埋め込まれた格子を利用する離散表現を学習するための理論とアルゴリズムを導入する。格子表現は興味深い性質の組み合わせを持つ:a) 格子量子化を用いて明示的に計算できるが、導入したアイデアを使って効率的に学習することができる。この記事では、トレーニングや推論時間に使用される式をリンクする新しい数学的結果や、2つの一般的なデータセットに対する実験的な検証など、最初の2つの特性を探索し、活用するための基盤の整備に焦点をあてる。
論文参考訳（メタデータ） (2020-06-24T16:05:11Z)
Multidirectional Associative Optimization of Function-Specific Word Representations [86.87082468226387]
本稿では,関係する単語群間の関連を学習するためのニューラルネットワークフレームワークを提案する。我々のモデルは結合関数固有の単語ベクトル空間を誘導し、例えば可塑性SVO合成のベクトルが近接して配置される。このモデルは、共同空間においても単語群のメンバーシップに関する情報を保持し、SVO構造を前提とした複数のタスクに効果的に適用することができる。
論文参考訳（メタデータ） (2020-05-11T17:07:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。