論文の概要: TQ-Net: Mixed Contrastive Representation Learning For Heterogeneous Test
Questions
- arxiv url: http://arxiv.org/abs/2303.08039v1
- Date: Thu, 9 Mar 2023 10:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-19 11:50:16.395552
- Title: TQ-Net: Mixed Contrastive Representation Learning For Heterogeneous Test
Questions
- Title(参考訳): tq-net: 異種テスト質問に対する混合コントラスト表現学習
- Authors: He Zhu, Xihua Li, Xuemin Zhao, Yunbo Cao, Shan Yu
- Abstract要約: テスト質問(TQ)は通常異質でマルチモーダルで、テキストのみを含むものもあれば、リテラル記述以上の情報を含むものもある。
本稿では,2段階の教師なしインスタンスレベルのコントラスト型事前学習法を用いて,従来のテキストのみの表現を改善する。
そして、TQ-Netは、画像の内容と異種データの表現を融合するために提案された。
- 参考スコア(独自算出の注目度): 18.186909839033017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, more and more people study online for the convenience of access to
massive learning materials (e.g. test questions/notes), thus accurately
understanding learning materials became a crucial issue, which is essential for
many educational applications. Previous studies focus on using language models
to represent the question data. However, test questions (TQ) are usually
heterogeneous and multi-modal, e.g., some of them may only contain text, while
others half contain images with information beyond their literal description.
In this context, both supervised and unsupervised methods are difficult to
learn a fused representation of questions. Meanwhile, this problem cannot be
solved by conventional methods such as image caption, as the images may contain
information complementary rather than duplicate to the text. In this paper, we
first improve previous text-only representation with a two-stage unsupervised
instance level contrastive based pre-training method (MCL: Mixture Unsupervised
Contrastive Learning). Then, TQ-Net was proposed to fuse the content of images
to the representation of heterogeneous data. Finally, supervised contrastive
learning was conducted on relevance prediction-related downstream tasks, which
helped the model to learn the representation of questions effectively. We
conducted extensive experiments on question-based tasks on large-scale,
real-world datasets, which demonstrated the effectiveness of TQ-Net and improve
the precision of downstream applications (e.g. similar questions +2.02% and
knowledge point prediction +7.20%). Our code will be available, and we will
open-source a subset of our data to promote the development of relative
studies.
- Abstract(参考訳): 近年,大規模学習教材(テスト質問・ノートなど)へのアクセスの便宜上,学習教材の正確な理解が重要な課題となり,多くの教育応用に欠かせない課題となっている。
これまでの研究では、質問データを表現するために言語モデルを使うことに重点を置いている。
しかし、テスト質問(tq)は通常異質でマルチモーダルである。例えば、テキストだけを含むものもあれば、リテラル記述を超えた情報を含むものもある。
この文脈では、教師なしと教師なしの両方のメソッドは、質問の融合表現を学ぶのが困難である。
一方で、画像はテキストに重複するのではなく、補完的な情報を含む可能性があるため、従来の画像キャプションのような方法ではこの問題は解決できない。
本稿では,まず2段階の教師なしインスタンスレベルコントラストベース事前学習法(mcl:mixed unsupervised contrastive learning)を用いて,従来のテキストのみ表現を改善する。
次に,画像の内容と異種データの表現を融合するtq-netを提案する。
最後に,妥当性予測に関連するダウンストリームタスクについて,教師付きコントラスト学習を行い,モデルが質問の表現を効果的に学習できるようにした。
tq-netの有効性を実証し,下流アプリケーション(類似質問+2.02%,知識ポイント予測+7.20%)の精度を向上させるため,大規模実世界のデータセットにおける質問に基づくタスクを広範囲に実験した。
私たちのコードは利用可能であり、相対研究の発展を促進するために、データのサブセットをオープンソース化します。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Mixture of Self-Supervised Learning [2.191505742658975]
自己教師型学習は、特定のタスクに適用される前にモデル上でトレーニングされるプレテキストタスクを使用することで機能する。
従来の研究では、プリテキストタスクとして1つのタイプの変換しか使用されていなかった。
これにより、複数のプリテキストタスクが使用されているかどうか、すべてのプリテキストタスクを組み合わせるためにゲーティングネットワークを使用するかどうか、という疑問が持ち上がる。
論文 参考訳(メタデータ) (2023-07-27T14:38:32Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - QASem Parsing: Text-to-text Modeling of QA-based Semantics [19.42681342441062]
本稿では,QA-SRL,QANom,QADiscourseの3つの意味的タスクについて考察する。
最初に統合されたQASem解析ツールをリリースし、下流アプリケーションに実用的です。
論文 参考訳(メタデータ) (2022-05-23T15:56:07Z) - Learning Downstream Task by Selectively Capturing Complementary
Knowledge from Multiple Self-supervisedly Learning Pretexts [20.764378638979704]
本稿では,タスクに適した表現を適応的に絞り込むために,アテンション機構を活用する新しい手法を提案する。
本手法は,知識収集において,現在普及しているテキストマッチング手法をはるかに上回っている。
論文 参考訳(メタデータ) (2022-04-11T16:46:50Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - Continual Learning for Blind Image Quality Assessment [80.55119990128419]
ブラインド画像品質評価(BIQA)モデルは、サブポピュレーションシフトに継続的に適応できない。
最近の研究では、利用可能なすべての人間評価のIQAデータセットの組み合わせに関するBIQAメソッドのトレーニングが推奨されている。
モデルがIQAデータセットのストリームから継続的に学習するBIQAの継続的学習を策定する。
論文 参考訳(メタデータ) (2021-02-19T03:07:01Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。