論文の概要: Transferring Knowledge from Vision to Language: How to Achieve it and
how to Measure it?
- arxiv url: http://arxiv.org/abs/2109.11321v1
- Date: Thu, 23 Sep 2021 12:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 19:21:28.593326
- Title: Transferring Knowledge from Vision to Language: How to Achieve it and
how to Measure it?
- Title(参考訳): 視覚から言語への知識の移譲:それをどうやって達成し、どのように測定するか?
- Authors: Tobias Norlund, Lovisa Hagstr\"om, Richard Johanssom
- Abstract要約: ユニモーダル言語モデルやマルチモーダル言語モデルのためのテキストへの視覚的知識伝達を評価する手法を提案する。
本手法は,モデルにおける視覚的知識伝達能力の測定に有効であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are known to suffer from the hallucination problem in
that they are prone to output statements that are false or inconsistent,
indicating a lack of knowledge. A proposed solution to this is to provide the
model with additional data modalities that complements the knowledge obtained
through text. We investigate the use of visual data to complement the knowledge
of large language models by proposing a method for evaluating visual knowledge
transfer to text for uni- or multimodal language models. The method is based on
two steps, 1) a novel task querying for knowledge of memory colors, i.e.
typical colors of well-known objects, and 2) filtering of model training data
to clearly separate knowledge contributions. Additionally, we introduce a model
architecture that involves a visual imagination step and evaluate it with our
proposed method. We find that our method can successfully be used to measure
visual knowledge transfer capabilities in models and that our novel model
architecture shows promising results for leveraging multimodal knowledge in a
unimodal setting.
- Abstract(参考訳): 大規模な言語モデルは、知識の欠如を示す誤った文や一貫性のない文を出力する傾向にあるという幻覚の問題に悩まされていることが知られている。
これに対する提案された解決策は、テキストによって得られた知識を補完する追加のデータモダリティをモデルに提供することである。
本稿では,テキストへの視覚知識伝達の評価手法を提案することにより,大言語モデルの知識を補完する視覚データの利用について検討する。
この方法は2つのステップに基づいています
1) 記憶色、すなわちよく知られた物体の典型的な色を知るための新しいタスククエリ
2) モデルトレーニングデータのフィルタリングにより、知識貢献を明確に分離する。
さらに,視覚的なイマジネーションステップを伴うモデルアーキテクチャを導入し,提案手法を用いて評価する。
提案手法は,モデルにおける視覚的知識伝達能力の測定に有効であり,新しいモデルアーキテクチャは,マルチモーダルな知識を一元的に活用するための有望な結果を示す。
関連論文リスト
- Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Semi-Structured Chain-of-Thought: Integrating Multiple Sources of Knowledge for Improved Language Model Reasoning [10.839645156881573]
本稿では,テキスト文書からの非構造化知識と知識グラフからの構造化知識とをシームレスに統合する,新しい半構造化プロンプト手法を提案する。
オープンドメイン型マルチホップ質問応答データセットの実験結果から,提案手法が既存の手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2023-11-14T19:53:53Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - What do Models Learn From Training on More Than Text? Measuring Visual
Commonsense Knowledge [0.13706331473063876]
言語モデルにおける視覚的コモンセンス知識を測定するための2つの評価タスクを提案する。
視覚的コモンセンスの知識は、視覚的テキストデータに基づいて訓練されたマルチモーダルモデルと非モーダルベースラインモデルとでは大きな違いはない。
論文 参考訳(メタデータ) (2022-05-14T13:37:50Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。