Fugu-MT 論文翻訳(概要): MultiSChuBERT: Effective Multimodal Fusion for Scholarly Document Quality Prediction

論文の概要: MultiSChuBERT: Effective Multimodal Fusion for Scholarly Document Quality Prediction

arxiv url: http://arxiv.org/abs/2308.07971v1
Date: Tue, 15 Aug 2023 18:18:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 15:53:54.978941
Title: MultiSChuBERT: Effective Multimodal Fusion for Scholarly Document Quality Prediction
Title（参考訳）: MultiSChuBERT: 文書品質予測のための効果的なマルチモーダル融合
Authors: Gideon Maillette de Buy Wenniger, Thomas van Dongen, Lambert Schomaker
Abstract要約: マルチモーダリティは学術文書品質予測タスクの性能を向上させることが示されている。マルチモーダル予測モデルであるMultiSChuBERTを提案する。視覚的サブモデルの重みの段階的凍結は、そのデータに適合する傾向を減少させることを示す。
参考スコア（独自算出の注目度）: 2.900522306460408
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic assessment of the quality of scholarly documents is a difficult task with high potential impact. Multimodality, in particular the addition of visual information next to text, has been shown to improve the performance on scholarly document quality prediction (SDQP) tasks. We propose the multimodal predictive model MultiSChuBERT. It combines a textual model based on chunking full paper text and aggregating computed BERT chunk-encodings (SChuBERT), with a visual model based on Inception V3.Our work contributes to the current state-of-the-art in SDQP in three ways. First, we show that the method of combining visual and textual embeddings can substantially influence the results. Second, we demonstrate that gradual-unfreezing of the weights of the visual sub-model, reduces its tendency to ovefit the data, improving results. Third, we show the retained benefit of multimodality when replacing standard BERT$_{\textrm{BASE}}$ embeddings with more recent state-of-the-art text embedding models. Using BERT$_{\textrm{BASE}}$ embeddings, on the (log) number of citations prediction task with the ACL-BiblioMetry dataset, our MultiSChuBERT (text+visual) model obtains an $R^{2}$ score of 0.454 compared to 0.432 for the SChuBERT (text only) model. Similar improvements are obtained on the PeerRead accept/reject prediction task. In our experiments using SciBERT, scincl, SPECTER and SPECTER2.0 embeddings, we show that each of these tailored embeddings adds further improvements over the standard BERT$_{\textrm{BASE}}$ embeddings, with the SPECTER2.0 embeddings performing best.
Abstract（参考訳）: 学術文書の品質の自動評価は, 潜在的影響が大きい課題である。マルチモーダル、特にテキストの横に視覚情報を追加することで、学術文書品質予測(SDQP)タスクの性能を向上させることが示されている。マルチモーダル予測モデルであるMultiSChuBERTを提案する。 Inception V3に基づく視覚モデルと、全文のチャンキングと計算されたBERTチャンクエンコーディング(SChuBERT)に基づくテキストモデルを組み合わせることで、SDQPにおける現在の最先端技術に3つの方法で貢献する。まず,視覚とテキストの埋め込みを組み合わせる手法が,結果に大きな影響を及ぼすことを示す。第2に,視覚サブモデルの重みの段階的凍結が,データに適合する傾向を減少させ,結果を改善することを実証する。第3に、標準のbert$_{\textrm{base}}$embedsを最新の最先端テキスト埋め込みモデルに置き換える際に、マルチモダリティの持つ利点を示す。 BERT$_{\textrm{BASE}}$ embeddeddings, on the (log) number of citations prediction task with the ACL-BiblioMetry dataset, our MultiSChuBERT (text+visual) model obtained a $R^{2}$ score of 0.454 than the SChuBERT (text only) model。 PeerReadcept/reject予測タスクでも同様の改善が加えられている。 SciBERT, scincl, SPECTER, SPECTER2.0 の埋め込みを用いた実験では、それぞれの組み込みが標準 BERT$_{\textrm{BASE}}$ の埋め込みよりも改善され、SPECTER2.0 の埋め込みが最善であることを示す。

関連論文リスト

TWSSenti: A Novel Hybrid Framework for Topic-Wise Sentiment Analysis on Social Media Using Transformer Models [0.0]
本研究では,感情分類の精度と頑健性を改善するために,トランスフォーマーモデルを組み合わせたハイブリッドフレームワークについて検討する。このフレームワークは、ノイズの多いデータ、コンテキストのあいまいさ、さまざまなデータセット間の一般化といった課題に対処する。この研究は、ソーシャルメディアのモニタリング、顧客感情分析、世論の追跡など、現実世界のタスクへの適用性を強調している。
論文参考訳（メタデータ） (2025-04-14T05:44:11Z)
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。 NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文参考訳（メタデータ） (2024-11-08T20:11:24Z)
Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
Triple Modality Fusion: Aligning Visual, Textual, and Graph Data with Large Language Models for Multi-Behavior Recommendations [12.154043062308201]
本稿では,三重モダリティの融合を活かした,多行動レコメンデーションのための新しいフレームワークを提案する。提案モデルであるTriple Modality Fusion (TMF)は,大規模言語モデル(LLM)のパワーを利用して,これらの3つのモダリティを調整・統合する。大規模な実験により,提案手法の有効性が示唆された。
論文参考訳（メタデータ） (2024-10-16T04:44:15Z)
Multi-BERT for Embeddings for Recommendation System [0.0]
本稿では,Sentence-BERTとRoBERTaを組み合わせて文書埋め込みを生成する手法を提案する。提案手法では,文をトークンとして扱い,埋め込みを生成することにより,文書内の文内関係と文間関係の両方を抽出する。書籍推薦タスクにおいて本モデルを評価し,よりセマンティックにリッチで正確な文書埋め込みを生成する上での有効性を実証する。
論文参考訳（メタデータ） (2023-08-24T19:36:05Z)
Exploring Multimodal Sentiment Analysis via CBAM Attention and Double-layer BiLSTM Architecture [3.9850392954445875]
本モデルでは,文中の長距離依存関係を抽出するためにBERT + BiLSTM を用いる。余分な情報を除去するために、テキスト特徴と画像特徴をスプライシングした後、CNNとCBAMの注意を追加する。実験結果から,従来のモデルと同様の音響効果が得られた。
論文参考訳（メタデータ） (2023-03-26T12:34:01Z)
Team Triple-Check at Factify 2: Parameter-Efficient Large Foundation Models with Feature Representations for Multi-Modal Fact Verification [5.552606716659022]
ソーシャルメディアでは、マルチモーダルな事実検証が重要だが難しい問題となっている。本稿では,細粒度テキストと照明パラメータを用いた入力埋め込みをモデル化するためのPre-CoFactv2フレームワークを提案する。 AAAI 2023のFactifyチャレンジにおいて,Pre-CoFactv2がPre-CoFactを大きなマージンで上回り,新たな最先端の成果を得たことを示す。
論文参考訳（メタデータ） (2023-02-12T18:08:54Z)
Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文参考訳（メタデータ） (2022-12-20T15:02:38Z)
Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文参考訳（メタデータ） (2022-03-15T01:24:51Z)
BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文参考訳（メタデータ） (2021-10-18T17:35:41Z)
LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文参考訳（メタデータ） (2020-12-29T13:01:52Z)
Pre-training for Abstractive Document Summarization by Reinstating Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。 2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文参考訳（メタデータ） (2020-04-04T05:06:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。