論文の概要: Beyond Language: Learning Commonsense from Images for Reasoning
- arxiv url: http://arxiv.org/abs/2010.05001v1
- Date: Sat, 10 Oct 2020 13:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 22:26:49.060442
- Title: Beyond Language: Learning Commonsense from Images for Reasoning
- Title(参考訳): beyond language: 推論のための画像から常識を学ぶ
- Authors: Wanqing Cui, Yanyan Lan, Liang Pang, Jiafeng Guo, Xueqi Cheng
- Abstract要約: 本稿では,限られた原文や高価に構築された知識ベースの代わりに,画像からコモンセンスを学習するための新しいアプローチを提案する。
私たちのモチベーションは、画像が1000ワードの価値があるという事実から来ています。
- 参考スコア(独自算出の注目度): 78.33934895163736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel approach to learn commonsense from images,
instead of limited raw texts or costly constructed knowledge bases, for the
commonsense reasoning problem in NLP. Our motivation comes from the fact that
an image is worth a thousand words, where richer scene information could be
leveraged to help distill the commonsense knowledge, which is often hidden in
languages. Our approach, namely Loire, consists of two stages. In the first
stage, a bi-modal sequence-to-sequence approach is utilized to conduct the
scene layout generation task, based on a text representation model ViBERT. In
this way, the required visual scene knowledge, such as spatial relations, will
be encoded in ViBERT by the supervised learning process with some bi-modal data
like COCO. Then ViBERT is concatenated with a pre-trained language model to
perform the downstream commonsense reasoning tasks. Experimental results on two
commonsense reasoning problems, i.e. commonsense question answering and pronoun
resolution, demonstrate that Loire outperforms traditional language-based
methods. We also give some case studies to show what knowledge is learned from
images and explain how the generated scene layout helps the commonsense
reasoning process.
- Abstract(参考訳): 本稿では,nlpの常識推論問題に対して,原文やコストのかかる知識ベースに代えて,画像から常識を学ぶための新しい手法を提案する。
私たちのモチベーションは、画像が1000語の価値があり、より豊かなシーン情報が、しばしば言語に隠されている常識の知識を蒸留するのに活用できるという事実から来ています。
我々のアプローチ、すなわちロワールは2つの段階から成る。
第1段階では、バイモーダルシーケンス・ツー・シーケンス・アプローチを使用して、テキスト表現モデルViBERTに基づいてシーンレイアウト生成タスクを実行する。
このように、空間関係のような必要な視覚的シーンの知識は、COCOのようなバイモーダルデータを用いて教師付き学習プロセスによってVBERTに符号化される。
次に、ViBERTは事前訓練された言語モデルと結合して、下流のコモンセンス推論タスクを実行する。
ロワール語が従来の言語に基づく手法より優れていることを示すために,2つのコモンセンス推論問題(コモンセンス質問応答と代名詞解決)に関する実験結果が得られた。
また,画像から学んだ知識を示すケーススタディや,生成したシーンレイアウトがコモンセンス推論プロセスにどのように役立つかを説明する。
関連論文リスト
- WAVER: Writing-style Agnostic Text-Video Retrieval via Distilling
Vision-Language Models Through Open-Vocabulary Knowledge [12.034917651508524]
$texttWAVER$は、視覚言語モデルによるクロスドメイン知識蒸留フレームワークである。
$texttWAVER$は、事前訓練された視覚言語モデルにあるオープン語彙プロパティに注目する。
テキストビデオ検索タスクでは、書き込みスタイルのバリエーションを処理しながら、最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-12-15T03:17:37Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z) - Implicit and Explicit Commonsense for Multi-sentence Video Captioning [33.969215964292395]
本稿では,暗黙的(視覚言語と純粋言語)と明示的(知識ベース)のコモンセンス知識を考慮に入れた,トランスフォーマーに基づく新しいビデオキャプションモデルを提案する。
我々は,これらの形態の知識が,単独で,かつ組み合わせて,生成したキャプションの品質を高めることを示す。
論文 参考訳(メタデータ) (2023-03-14T00:19:11Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Transferring Knowledge from Vision to Language: How to Achieve it and
how to Measure it? [0.0]
ユニモーダル言語モデルやマルチモーダル言語モデルのためのテキストへの視覚的知識伝達を評価する手法を提案する。
本手法は,モデルにおける視覚的知識伝達能力の測定に有効であることがわかった。
論文 参考訳(メタデータ) (2021-09-23T12:11:23Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。