論文の概要: MultiSChuBERT: Effective Multimodal Fusion for Scholarly Document
Quality Prediction
- arxiv url: http://arxiv.org/abs/2308.07971v1
- Date: Tue, 15 Aug 2023 18:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 15:53:54.978941
- Title: MultiSChuBERT: Effective Multimodal Fusion for Scholarly Document
Quality Prediction
- Title(参考訳): MultiSChuBERT: 文書品質予測のための効果的なマルチモーダル融合
- Authors: Gideon Maillette de Buy Wenniger, Thomas van Dongen, Lambert Schomaker
- Abstract要約: マルチモーダリティは学術文書品質予測タスクの性能を向上させることが示されている。
マルチモーダル予測モデルであるMultiSChuBERTを提案する。
視覚的サブモデルの重みの段階的凍結は、そのデータに適合する傾向を減少させることを示す。
- 参考スコア(独自算出の注目度): 2.900522306460408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic assessment of the quality of scholarly documents is a difficult
task with high potential impact. Multimodality, in particular the addition of
visual information next to text, has been shown to improve the performance on
scholarly document quality prediction (SDQP) tasks. We propose the multimodal
predictive model MultiSChuBERT. It combines a textual model based on chunking
full paper text and aggregating computed BERT chunk-encodings (SChuBERT), with
a visual model based on Inception V3.Our work contributes to the current
state-of-the-art in SDQP in three ways. First, we show that the method of
combining visual and textual embeddings can substantially influence the
results. Second, we demonstrate that gradual-unfreezing of the weights of the
visual sub-model, reduces its tendency to ovefit the data, improving results.
Third, we show the retained benefit of multimodality when replacing standard
BERT$_{\textrm{BASE}}$ embeddings with more recent state-of-the-art text
embedding models.
Using BERT$_{\textrm{BASE}}$ embeddings, on the (log) number of citations
prediction task with the ACL-BiblioMetry dataset, our MultiSChuBERT
(text+visual) model obtains an $R^{2}$ score of 0.454 compared to 0.432 for the
SChuBERT (text only) model. Similar improvements are obtained on the PeerRead
accept/reject prediction task. In our experiments using SciBERT, scincl,
SPECTER and SPECTER2.0 embeddings, we show that each of these tailored
embeddings adds further improvements over the standard BERT$_{\textrm{BASE}}$
embeddings, with the SPECTER2.0 embeddings performing best.
- Abstract(参考訳): 学術文書の品質の自動評価は, 潜在的影響が大きい課題である。
マルチモーダル、特にテキストの横に視覚情報を追加することで、学術文書品質予測(SDQP)タスクの性能を向上させることが示されている。
マルチモーダル予測モデルであるMultiSChuBERTを提案する。
Inception V3に基づく視覚モデルと、全文のチャンキングと計算されたBERTチャンクエンコーディング(SChuBERT)に基づくテキストモデルを組み合わせることで、SDQPにおける現在の最先端技術に3つの方法で貢献する。
まず,視覚とテキストの埋め込みを組み合わせる手法が,結果に大きな影響を及ぼすことを示す。
第2に,視覚サブモデルの重みの段階的凍結が,データに適合する傾向を減少させ,結果を改善することを実証する。
第3に、標準のbert$_{\textrm{base}}$embedsを最新の最先端テキスト埋め込みモデルに置き換える際に、マルチモダリティの持つ利点を示す。
BERT$_{\textrm{BASE}}$ embeddeddings, on the (log) number of citations prediction task with the ACL-BiblioMetry dataset, our MultiSChuBERT (text+visual) model obtained a $R^{2}$ score of 0.454 than the SChuBERT (text only) model。
PeerReadcept/reject予測タスクでも同様の改善が加えられている。
SciBERT, scincl, SPECTER, SPECTER2.0 の埋め込みを用いた実験では、それぞれの組み込みが標準 BERT$_{\textrm{BASE}}$ の埋め込みよりも改善され、SPECTER2.0 の埋め込みが最善であることを示す。
関連論文リスト
- Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - Multi-BERT for Embeddings for Recommendation System [0.0]
本稿では,Sentence-BERTとRoBERTaを組み合わせて文書埋め込みを生成する手法を提案する。
提案手法では,文をトークンとして扱い,埋め込みを生成することにより,文書内の文内関係と文間関係の両方を抽出する。
書籍推薦タスクにおいて本モデルを評価し,よりセマンティックにリッチで正確な文書埋め込みを生成する上での有効性を実証する。
論文 参考訳(メタデータ) (2023-08-24T19:36:05Z) - Exploring Multimodal Sentiment Analysis via CBAM Attention and
Double-layer BiLSTM Architecture [3.9850392954445875]
本モデルでは,文中の長距離依存関係を抽出するためにBERT + BiLSTM を用いる。
余分な情報を除去するために、テキスト特徴と画像特徴をスプライシングした後、CNNとCBAMの注意を追加する。
実験結果から,従来のモデルと同様の音響効果が得られた。
論文 参考訳(メタデータ) (2023-03-26T12:34:01Z) - Team Triple-Check at Factify 2: Parameter-Efficient Large Foundation
Models with Feature Representations for Multi-Modal Fact Verification [5.552606716659022]
ソーシャルメディアでは、マルチモーダルな事実検証が重要だが難しい問題となっている。
本稿では,細粒度テキストと照明パラメータを用いた入力埋め込みをモデル化するためのPre-CoFactv2フレームワークを提案する。
AAAI 2023のFactifyチャレンジにおいて,Pre-CoFactv2がPre-CoFactを大きなマージンで上回り,新たな最先端の成果を得たことを示す。
論文 参考訳(メタデータ) (2023-02-12T18:08:54Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。
提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文 参考訳(メタデータ) (2021-10-18T17:35:41Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。