論文の概要: Document Classification Pattern Recognition via Information Fusion: A Systematic Review of Multimodal and Multiview Representation Approaches
- arxiv url: http://arxiv.org/abs/2605.23910v2
- Date: Tue, 26 May 2026 13:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.456096
- Title: Document Classification Pattern Recognition via Information Fusion: A Systematic Review of Multimodal and Multiview Representation Approaches
- Title(参考訳): 情報融合による文書分類パターン認識:マルチモーダル・マルチビュー表現手法の体系的レビュー
- Authors: Marcin Michał Mirończuk,
- Abstract要約: 情報融合は文書分類を改善するために用いられる。
この分野には、統一されたフレームワーク、その効果の定量的な合成、実践者のための明確なガイダンスが欠落している。
このレビューの主な貢献は、統一フレームワーク、最初の定量的エビデンスベース、データ駆動ガイドラインである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Information fusion is used widely to improve document classification by the integration of multiple data sources (multimodal) or representations (multiview). However, the field lacks a unified framework, a quantitative synthesis of its effectiveness, and clear guidance for practitioners. This systematic review addresses these gaps by analysing 139 primary studies. It introduces a formal framework to structure the field, presents the results of a qualitative analysis to identify key trends, and performs a random-effects meta-analysis (to our knowledge, the first focused on document classification) to quantify performance gains. Our meta-analysis reveals that multimodal fusion improves accuracy (mean gain of +5.28 percentage points, $p=0.0016$) significantly -- the F1-score effect is directionally positive but statistically non-significant in our primary model. Multiview fusion provides consistent but modest gains for accuracy (+4.67\%), F1-score (+3.08\%), and recall (all $p<0.05$). Critically, our qualitative synthesis uncovers challenges in reproducibility in methodological rigour: only 11.8\% (multimodal) and 23.3\% (multiview) of the studies use statistical tests to validate their findings, which undermines the reliability of many of their results. This review's primary contributions are a unifying framework, the first quantitative evidence base, and data-driven guidelines. This review concludes that successful information fusion depends not on algorithmic complexity, but on the strategic alignment of the fusion method with the task context and a commitment to more rigorous validation.
- Abstract(参考訳): 情報融合は、複数のデータソース(マルチモーダル)や表現(マルチビュー)を統合することで文書分類を改善するために広く利用されている。
しかし、この分野には統一された枠組み、その効果の定量的な合成、実践者への明確な指導が欠如している。
この体系的なレビューは、これらのギャップに139の初等研究を分析して対処する。
フィールドを構成するための形式的なフレームワークを導入し、キートレンドを特定するための定性的分析の結果を示し、パフォーマンス向上を定量化するためのランダムな影響メタ分析(私たちの知る限り、文書分類に最初に焦点をあてた)を実行します。
我々のメタ分析では、マルチモーダル融合は精度を向上し(つまり、+5.28ポイント、$p=0.0016$)、F1スコア効果は方向的に正だが、一次モデルでは統計的には重要ではない。
マルチビュー融合は、正確性(+4.67\%)、F1スコア(+3.08\%)、リコール(すべて$p<0.05$)に対して、一貫性はあるが控えめなゲインを提供する。
本研究は, 実験結果の信頼性を損なうため, 実験結果の信頼性を損なうため, 実験結果の再現性は11.8 % (マルチモーダル) と23.3 % (マルチビュー) に留まった。
このレビューの主な貢献は、統一フレームワーク、最初の定量的エビデンスベース、データ駆動ガイドラインである。
このレビューでは,情報融合の成功は,アルゴリズムの複雑さではなく,タスクコンテキストとの融合手法の戦略的整合と,より厳密な検証へのコミットメントに依存していると結論付けている。
関連論文リスト
- MicroProbe: Efficient Reliability Assessment for Foundation Models with Minimal Data [0.0]
マイクロプローブは、戦略的に選択された100個のプローブ例のみを用いて、総合的な信頼性評価を行う。
マイクロプローブは, ランダムサンプリングベースラインに比べて23.5%高い信頼性を示す。
マイクロプローブは、信頼性評価を99.9%の統計力で完了し、評価コストの90%を削減し、従来の方法カバレッジの95%を維持する。
論文 参考訳(メタデータ) (2025-11-30T13:01:57Z) - Effectiveness of Large Multimodal Models in Detecting Disinformation: Experimental Results [0.0]
本研究では,偽情報の検出・緩和における大規模マルチモーダルモデルの可能性について検討する。
本稿では,GPT-4oモデルの高度な機能を活用し,マルチモーダルな偽情報検出手法を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:07:06Z) - Enhancing person re-identification via Uncertainty Feature Fusion Method and Auto-weighted Measure Combination [1.183049138259841]
人物再識別(Re-ID)は、監視システムにおいて、異なるカメラビューで同一人物を特定することを含む、困難なタスクである。
本稿では,不確定特徴融合法(UFFM)と自動重み付け器(AMC)によるReIDモデルの能力を向上する新しい手法を提案する。
本手法は,人物の再識別データセットで評価した場合のランク@1精度と平均精度(mAP)を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-02T09:09:48Z) - Beyond Images: Adaptive Fusion of Visual and Textual Data for Food Classification [40.87887112206404]
このフレームワークはUPMC Food-101データセットで厳格に評価され、画像の73.60%、テキストの88.84%の単調な分類精度を達成した。
両方のモダリティが融合されたとき、このモデルは97.84%の精度を達成し、いくつかの最先端の手法を上回った。
論文 参考訳(メタデータ) (2023-08-03T04:03:46Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。