論文の概要: Vision-and-Language Training Helps Deploy Taxonomic Knowledge but Does Not Fundamentally Alter It
- arxiv url: http://arxiv.org/abs/2507.13328v1
- Date: Thu, 17 Jul 2025 17:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.606305
- Title: Vision-and-Language Training Helps Deploy Taxonomic Knowledge but Does Not Fundamentally Alter It
- Title(参考訳): ビジョン・アンド・ランゲージトレーニングは、分類学知識の展開を支援するが、根本的な変化はない
- Authors: Yulu Qin, Dheeraj Varghese, Adam Dahlgren Lindström, Lucia Donatelli, Kanishka Misra, Najoung Kim,
- Abstract要約: 視覚・言語訓練(VL)は,言語モデルの言語表現を意味のある方法で変化させることを示す。
まず、VLモデルは、テキストのみの質問応答タスクにおいて、テキストのみのモデルよりも優れていることを示す。
LMとVLMは、その分類学的知識自体において大きな違いはないが、それらが、分類学的関係における概念を含む質問を非分類学的関係と比較してどのように表現するかが異なる。
- 参考スコア(独自算出の注目度): 11.691778961564923
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Does vision-and-language (VL) training change the linguistic representations of language models in meaningful ways? Most results in the literature have shown inconsistent or marginal differences, both behaviorally and representationally. In this work, we start from the hypothesis that the domain in which VL training could have a significant effect is lexical-conceptual knowledge, in particular its taxonomic organization. Through comparing minimal pairs of text-only LMs and their VL-trained counterparts, we first show that the VL models often outperform their text-only counterparts on a text-only question-answering task that requires taxonomic understanding of concepts mentioned in the questions. Using an array of targeted behavioral and representational analyses, we show that the LMs and VLMs do not differ significantly in terms of their taxonomic knowledge itself, but they differ in how they represent questions that contain concepts in a taxonomic relation vs. a non-taxonomic relation. This implies that the taxonomic knowledge itself does not change substantially through additional VL training, but VL training does improve the deployment of this knowledge in the context of a specific task, even when the presentation of the task is purely linguistic.
- Abstract(参考訳): ヴィジュアル・アンド・ランゲージ(VL)トレーニングは、言語モデルの言語表現を意味のある方法で変えるか?
文献のほとんどの結果は、行動的にも表現的にも、矛盾または限界的な違いを示している。
本研究は, VL トレーニングが重要な影響を及ぼす可能性のある領域は語彙-概念的知識,特にその分類学的組織である,という仮説から始める。
最小ペアのテキストのみのLMとVLで訓練されたLMを比較することで、VLモデルはテキストのみの質問応答タスクにおいて、質問に言及された概念を分類学的に理解する必要のある、テキストのみのモデルよりも優れていることを示す。
対象とした行動・表現分析の配列を用いて, LM と VLM は, 分類学的知識自体において有意差はないが, それらが, 分類学的関係における概念を含む質問を非分類学的関係に対してどう表現するかが異なることを示す。
これは、分類学的知識自体が付加的なVLトレーニングによって大きく変化しないことを意味するが、VLトレーニングは、タスクの提示が純粋に言語的であっても、特定のタスクの文脈におけるこの知識の展開を改善する。
関連論文リスト
- Understand the Implication: Learning to Think for Pragmatic Understanding [34.34828731466766]
プラグマティクス(英: Pragmatics)とは、文字通りの解釈を超えて意味を推測する能力である。
既存の手法は注釈付きラベルに依存しているが、人間が暗黙の意味を解釈するために自然に使用する推論プロセスを見落としている。
我々は、正しい解釈と誤解釈の両方に対して明確な推論(思考)を含む、新しい実用的データセット、ImpliedPreferenceを導入する。
論文 参考訳(メタデータ) (2025-06-16T14:45:08Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Subspace Chronicles: How Linguistic Information Emerges, Shifts and
Interacts during Language Model Training [56.74440457571821]
我々は、構文、意味論、推論を含むタスクを、200万の事前学習ステップと5つのシードで分析する。
タスクや時間にまたがる重要な学習フェーズを特定し、その間にサブスペースが出現し、情報を共有し、後に専門化するために混乱する。
この結果は,モデル解釈可能性,マルチタスク学習,限られたデータからの学習に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-25T09:09:55Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Transfer Learning of Lexical Semantic Families for Argumentative
Discourse Units Identification [0.8508198765617198]
引数マイニングのタスクは、低から高の複雑さの言語現象と常識知識のインフォームドレンジを必要とする。
これまでの研究では、事前学習された言語モデルは、構文的および意味論的言語現象を符号化するのに非常に効果的であることが示されている。
既存のトレーニング済み言語モデルが、引数マイニングタスクの複雑さをどの程度含んでいるかは、依然として問題である。
論文 参考訳(メタデータ) (2022-09-06T13:38:47Z) - Does Vision-and-Language Pretraining Improve Lexical Grounding? [25.357191933430627]
ビジョン・アンド・ランゲージモデルは、テキストや画像、ビデオデータに基づいて共同で訓練される。
内部言語表現そのものが、テキストのみの表現とどのように比較されるのかは、まだ分かっていない。
論文 参考訳(メタデータ) (2021-09-21T15:12:39Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。
我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文 参考訳(メタデータ) (2020-10-12T14:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。