論文の概要: MultiSChuBERT: Effective Multimodal Fusion for Scholarly Document
Quality Prediction
- arxiv url: http://arxiv.org/abs/2308.07971v1
- Date: Tue, 15 Aug 2023 18:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 15:53:54.978941
- Title: MultiSChuBERT: Effective Multimodal Fusion for Scholarly Document
Quality Prediction
- Title(参考訳): MultiSChuBERT: 文書品質予測のための効果的なマルチモーダル融合
- Authors: Gideon Maillette de Buy Wenniger, Thomas van Dongen, Lambert Schomaker
- Abstract要約: マルチモーダリティは学術文書品質予測タスクの性能を向上させることが示されている。
マルチモーダル予測モデルであるMultiSChuBERTを提案する。
視覚的サブモデルの重みの段階的凍結は、そのデータに適合する傾向を減少させることを示す。
- 参考スコア(独自算出の注目度): 2.900522306460408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic assessment of the quality of scholarly documents is a difficult
task with high potential impact. Multimodality, in particular the addition of
visual information next to text, has been shown to improve the performance on
scholarly document quality prediction (SDQP) tasks. We propose the multimodal
predictive model MultiSChuBERT. It combines a textual model based on chunking
full paper text and aggregating computed BERT chunk-encodings (SChuBERT), with
a visual model based on Inception V3.Our work contributes to the current
state-of-the-art in SDQP in three ways. First, we show that the method of
combining visual and textual embeddings can substantially influence the
results. Second, we demonstrate that gradual-unfreezing of the weights of the
visual sub-model, reduces its tendency to ovefit the data, improving results.
Third, we show the retained benefit of multimodality when replacing standard
BERT$_{\textrm{BASE}}$ embeddings with more recent state-of-the-art text
embedding models.
Using BERT$_{\textrm{BASE}}$ embeddings, on the (log) number of citations
prediction task with the ACL-BiblioMetry dataset, our MultiSChuBERT
(text+visual) model obtains an $R^{2}$ score of 0.454 compared to 0.432 for the
SChuBERT (text only) model. Similar improvements are obtained on the PeerRead
accept/reject prediction task. In our experiments using SciBERT, scincl,
SPECTER and SPECTER2.0 embeddings, we show that each of these tailored
embeddings adds further improvements over the standard BERT$_{\textrm{BASE}}$
embeddings, with the SPECTER2.0 embeddings performing best.
- Abstract(参考訳): 学術文書の品質の自動評価は, 潜在的影響が大きい課題である。
マルチモーダル、特にテキストの横に視覚情報を追加することで、学術文書品質予測(SDQP)タスクの性能を向上させることが示されている。
マルチモーダル予測モデルであるMultiSChuBERTを提案する。
Inception V3に基づく視覚モデルと、全文のチャンキングと計算されたBERTチャンクエンコーディング(SChuBERT)に基づくテキストモデルを組み合わせることで、SDQPにおける現在の最先端技術に3つの方法で貢献する。
まず,視覚とテキストの埋め込みを組み合わせる手法が,結果に大きな影響を及ぼすことを示す。
第2に,視覚サブモデルの重みの段階的凍結が,データに適合する傾向を減少させ,結果を改善することを実証する。
第3に、標準のbert$_{\textrm{base}}$embedsを最新の最先端テキスト埋め込みモデルに置き換える際に、マルチモダリティの持つ利点を示す。
BERT$_{\textrm{BASE}}$ embeddeddings, on the (log) number of citations prediction task with the ACL-BiblioMetry dataset, our MultiSChuBERT (text+visual) model obtained a $R^{2}$ score of 0.454 than the SChuBERT (text only) model。
PeerReadcept/reject予測タスクでも同様の改善が加えられている。
SciBERT, scincl, SPECTER, SPECTER2.0 の埋め込みを用いた実験では、それぞれの組み込みが標準 BERT$_{\textrm{BASE}}$ の埋め込みよりも改善され、SPECTER2.0 の埋め込みが最善であることを示す。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Triple Modality Fusion: Aligning Visual, Textual, and Graph Data with Large Language Models for Multi-Behavior Recommendations [12.154043062308201]
本稿では,三重モダリティの融合を活かした,多行動レコメンデーションのための新しいフレームワークを提案する。
提案モデルであるTriple Modality Fusion (TMF)は,大規模言語モデル(LLM)のパワーを利用して,これらの3つのモダリティを調整・統合する。
大規模な実験により,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2024-10-16T04:44:15Z) - Multi-BERT for Embeddings for Recommendation System [0.0]
本稿では,Sentence-BERTとRoBERTaを組み合わせて文書埋め込みを生成する手法を提案する。
提案手法では,文をトークンとして扱い,埋め込みを生成することにより,文書内の文内関係と文間関係の両方を抽出する。
書籍推薦タスクにおいて本モデルを評価し,よりセマンティックにリッチで正確な文書埋め込みを生成する上での有効性を実証する。
論文 参考訳(メタデータ) (2023-08-24T19:36:05Z) - Exploring Multimodal Sentiment Analysis via CBAM Attention and
Double-layer BiLSTM Architecture [3.9850392954445875]
本モデルでは,文中の長距離依存関係を抽出するためにBERT + BiLSTM を用いる。
余分な情報を除去するために、テキスト特徴と画像特徴をスプライシングした後、CNNとCBAMの注意を追加する。
実験結果から,従来のモデルと同様の音響効果が得られた。
論文 参考訳(メタデータ) (2023-03-26T12:34:01Z) - Team Triple-Check at Factify 2: Parameter-Efficient Large Foundation
Models with Feature Representations for Multi-Modal Fact Verification [5.552606716659022]
ソーシャルメディアでは、マルチモーダルな事実検証が重要だが難しい問題となっている。
本稿では,細粒度テキストと照明パラメータを用いた入力埋め込みをモデル化するためのPre-CoFactv2フレームワークを提案する。
AAAI 2023のFactifyチャレンジにおいて,Pre-CoFactv2がPre-CoFactを大きなマージンで上回り,新たな最先端の成果を得たことを示す。
論文 参考訳(メタデータ) (2023-02-12T18:08:54Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。
提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文 参考訳(メタデータ) (2021-10-18T17:35:41Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。