論文の概要: Semantic Composition in Visually Grounded Language Models
- arxiv url: http://arxiv.org/abs/2305.16328v1
- Date: Mon, 15 May 2023 03:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-04 12:06:48.077502
- Title: Semantic Composition in Visually Grounded Language Models
- Title(参考訳): 視覚的接地言語モデルにおける意味構成
- Authors: Rohan Pandey
- Abstract要約: 視覚的に接地された言語モデルは構成構造を表現するのに大きく失敗することを示す。
我々は新しい構成的視覚的質問応答ベンチマークであるWinogroundVQAを紹介する。
我々は、研究の神経科学、精神言語学、形式意味論、哲学との関連について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What is sentence meaning and its ideal representation? Much of the expressive
power of human language derives from semantic composition, the mind's ability
to represent meaning hierarchically & relationally over constituents. At the
same time, much sentential meaning is outside the text and requires grounding
in sensory, motor, and experiential modalities to be adequately learned.
Although large language models display considerable compositional ability,
recent work shows that visually-grounded language models drastically fail to
represent compositional structure. In this thesis, we explore whether & how
models compose visually grounded semantics, and how we might improve their
ability to do so.
Specifically, we introduce 1) WinogroundVQA, a new compositional visual
question answering benchmark, 2) Syntactic Neural Module Distillation, a
measure of compositional ability in sentence embedding models, 3) Causal
Tracing for Image Captioning Models to locate neural representations vital for
vision-language composition, 4) Syntactic MeanPool to inject a compositional
inductive bias into sentence embeddings, and 5) Cross-modal Attention
Congruence Regularization, a self-supervised objective function for
vision-language relation alignment. We close by discussing connections of our
work to neuroscience, psycholinguistics, formal semantics, and philosophy.
- Abstract(参考訳): 文の意味とその理想表現とは何か?
人間言語の表現力の多くは、意味的構成、すなわち意味を階層的かつ関係的に表現する能力に由来する。
同時に、多くの感性的な意味はテキストの外にあり、適切に学習するには知覚、運動、経験的モダリティの接地が必要である。
大規模な言語モデルはかなりの構成能力を示すが、近年の研究では、視覚的に接地された言語モデルは構成構造を劇的に表現できないことが示されている。
本論文では,モデルが視覚的に接地したセマンティクスをどのように構成するか,どのようにしてそれらの能力を向上させるのかを考察する。
具体的には
1)新しい構成的視覚的質問応答ベンチマークであるwinogroundvqa
2)文埋め込みモデルにおける合成能力の尺度である構文的神経モジュール蒸留
3)視覚言語構成に不可欠な神経表現を見つけるための画像キャプションモデルの因果的追跡
4)合成的帰納的バイアスを文埋め込みに注入する構文的平均プール、及び
5)視覚言語関係アライメントのための自己教師付き客観的関数であるクロスモーダル注意規則化。
我々は、研究の神経科学、精神言語学、形式的意味論、哲学との関係について論じる。
関連論文リスト
- A Complexity-Based Theory of Compositionality [53.025566128892066]
AIでは、構成表現は配布外一般化の強力な形式を可能にすることができる。
ここでは、構成性に関する直観を考慮し、拡張する構成性の公式な定義を提案する。
この定義は概念的には単純で量的であり、アルゴリズム情報理論に基礎を置いており、あらゆる表現に適用できる。
論文 参考訳(メタデータ) (2024-10-18T18:37:27Z) - Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - Contextualized word senses: from attention to compositionality [0.10878040851637999]
本稿では,文脈感覚を符号化する透過的,解釈可能,言語的に動機づけられた戦略を提案する。
特に依存関係や選択選好やパラダイムクラスといった意味概念に注意が向けられる。
論文 参考訳(メタデータ) (2023-12-01T16:04:00Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Im-Promptu: In-Context Composition from Image Prompts [10.079743487034762]
視覚刺激の構成可能な要素に対して,類似推論がコンテキスト内合成を可能にするか否かを検討する。
我々はIm-Promptuを使って、ベクトル表現、パッチ表現、オブジェクトスロットなど、さまざまなレベルの構成性のエージェントを訓練する。
本実験は,学習された構成規則を未知の領域に拡張する非構成的表現を用いて,外挿能力と構成性の程度とのトレードオフを明らかにする。
論文 参考訳(メタデータ) (2023-05-26T21:10:11Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - Compositional Processing Emerges in Neural Networks Solving Math
Problems [100.80518350845668]
人工知能の最近の進歩は、大きなモデルが十分な言語データに基づいて訓練されると、文法構造が表現に現れることを示している。
我々は、この研究を数学的推論の領域にまで拡張し、どのように意味を構成するべきかについての正確な仮説を定式化することができる。
私たちの研究は、ニューラルネットワークがトレーニングデータに暗黙的に構造化された関係について何かを推測できるだけでなく、個々の意味の合成を合成全体へと導くために、この知識を展開できることを示している。
論文 参考訳(メタデータ) (2021-05-19T07:24:42Z) - Natural Language Rationales with Full-Stack Visual Reasoning: From
Pixels to Semantic Frames to Commonsense Graphs [106.15931418425906]
本研究は,複数の複雑な視覚的推論課題にまたがる自然言語の有理性の生成に焦点を当てた最初の研究である。
RationaleVT Transformerは、事前学習された言語モデルとオブジェクト認識、接地された視覚的セマンティックフレーム、視覚的コモンセンスグラフを組み合わせることで、自由テキスト論理を生成することを学習する統合モデルである。
実験の結果, 基礎となる事前学習言語モデルは視覚適応の恩恵を受けており, 複雑な視覚的・テキスト的推論タスクに対するモデル解釈可能性の補完として, 自由文合理化が有望な研究方向であることを示唆した。
論文 参考訳(メタデータ) (2020-10-15T05:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。