論文の概要: Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification
- arxiv url: http://arxiv.org/abs/2408.11237v1
- Date: Tue, 20 Aug 2024 23:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-22 18:58:50.498254
- Title: Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification
- Title(参考訳): マルチモーダル文書分類のためのアテンションヘッドマスキングによるアウト・オブ・ディストリビューション検出
- Authors: Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson,
- Abstract要約: 本稿では,文書分類システムにおける多モードOODタスクに対するアテンションヘッドマスキング(AHM)と呼ばれる新しい手法を提案する。
実験により,提案手法がすべての最先端手法より優れていることを示す。
高品質な公開可能なドキュメントデータセットの不足に対処するために、新しいドキュメントAIデータセットであるFunderDocsを紹介します。
- 参考スコア(独自算出の注目度): 3.141006099594433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting out-of-distribution (OOD) data is crucial in machine learning applications to mitigate the risk of model overconfidence, thereby enhancing the reliability and safety of deployed systems. The majority of existing OOD detection methods predominantly address uni-modal inputs, such as images or texts. In the context of multi-modal documents, there is a notable lack of extensive research on the performance of these methods, which have primarily been developed with a focus on computer vision tasks. We propose a novel methodology termed as attention head masking (AHM) for multi-modal OOD tasks in document classification systems. Our empirical results demonstrate that the proposed AHM method outperforms all state-of-the-art approaches and significantly decreases the false positive rate (FPR) compared to existing solutions up to 7.5\%. This methodology generalizes well to multi-modal data, such as documents, where visual and textual information are modeled under the same Transformer architecture. To address the scarcity of high-quality publicly available document datasets and encourage further research on OOD detection for documents, we introduce FinanceDocs, a new document AI dataset. Our code and dataset are publicly available.
- Abstract(参考訳): 機械学習アプリケーションにおいて、オフ・オブ・ディストリビューション(OOD)データの検出は、モデル過信のリスクを軽減し、デプロイされたシステムの信頼性と安全性を高めるために不可欠である。
既存のOOD検出手法の大部分は、画像やテキストなどの一様入力に対処する。
マルチモーダル文書の文脈では、主にコンピュータビジョンタスクに焦点をあてて開発されたこれらの手法の性能に関する広範な研究が欠如している。
本稿では,文書分類システムにおける多モードOODタスクに対するアテンションヘッドマスキング(AHM)と呼ばれる新しい手法を提案する。
実験の結果,提案手法はすべての最先端手法より優れており,既存の解に比べてFPR(偽陽性率)は7.5 %まで大幅に低下することがわかった。
この手法は、視覚情報とテキスト情報が同じトランスフォーマーアーキテクチャでモデル化される文書などのマルチモーダルデータによく当てはまる。
高品質な公開可能なドキュメントデータセットの不足に対処し、ドキュメントのOOD検出に関するさらなる研究を促進するために、新しいドキュメントAIデータセットであるFundyDocsを導入する。
コードとデータセットは公開されています。
関連論文リスト
- Revisiting Logit Distributions for Reliable Out-of-Distribution Detection [73.9121001113687]
アウト・オブ・ディストリビューション(OOD)検出は、オープンワールドアプリケーションにおけるディープラーニングモデルの信頼性を保証するために重要である。
LogitGapは、最大ロジットと残りのロジットの関係を利用する、ポストホックなOOD検出手法である。
我々は、LogitGapが様々なOOD検出シナリオとベンチマークにわたって、最先端のパフォーマンスを一貫して達成していることを示す。
論文 参考訳(メタデータ) (2025-10-23T02:16:45Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline [56.790045049514326]
詐欺の2つの主要な形態は、人造誤報とAI生成コンテンツである。
両形態の偽造を扱うためのフレームワークであるUMFDet(Unified Multimodal Fake Content Detection)を提案する。
UMFDetは、両方の誤情報型に対して堅牢で一貫したパフォーマンスを実現し、特殊ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-09-30T09:26:32Z) - ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - DocVCE: Diffusion-based Visual Counterfactual Explanations for Document Image Classification [5.247930659596986]
本稿では,行動可能な説明を通じて,モデルの決定に意味のある洞察を与える,生成的文書反事実について紹介する。
著者の知識を最大限に活用するために、これは文書画像解析における生成的対実的説明を探求する最初の研究である。
論文 参考訳(メタデータ) (2025-08-06T09:15:32Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - Benchmarking Vision Foundation Models for Input Monitoring in Autonomous Driving [7.064497253920508]
特徴抽出器および密度モデリング技術としてのビジョンファウンデーションモデル(VFM)を提案する。
最先端のバイナリOOD分類法と比較すると、密度推定によるVFM埋め込みはOOD入力の同定において既存の手法よりも優れていることが分かる。
提案手法は,ダウンストリームタスクにおけるエラーの原因となる可能性のある高リスク入力を検出し,全体的な性能を向上させる。
論文 参考訳(メタデータ) (2025-01-14T12:51:34Z) - What If the Input is Expanded in OOD Detection? [77.37433624869857]
Out-of-distriion (OOD) 検出は未知のクラスからのOOD入力を特定することを目的としている。
In-distriion(ID)データと区別するために,様々なスコアリング関数を提案する。
入力空間に異なる共通の汚職を用いるという、新しい視点を導入する。
論文 参考訳(メタデータ) (2024-10-24T06:47:28Z) - MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。
任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。
提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文 参考訳(メタデータ) (2024-07-18T01:33:20Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Out-of-Distribution Detection Using Peer-Class Generated by Large Language Model [0.0]
アウト・オブ・ディストリビューション(OOD)検出は、マシンラーニングモデルの信頼性とセキュリティを確保するための重要なタスクである。
本稿では,ODPCと呼ばれる新しい手法を提案し,大規模言語モデルを用いてOODピア・セマンティクスのクラスを生成する。
5つのベンチマークデータセットの実験により,提案手法は最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-03-20T06:04:05Z) - Exploring Large Language Models for Multi-Modal Out-of-Distribution
Detection [67.68030805755679]
大きな言語モデル(LLM)は豊富な世界の知識をエンコードし、クラスごとに記述的な特徴を生成するよう促すことができる。
本稿では,LLMの選択的生成によるOOD検出性能向上のための世界知識の適用を提案する。
論文 参考訳(メタデータ) (2023-10-12T04:14:28Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual
Document Understanding Models [68.12229916000584]
本研究では,文書画像関連タスクの微粒化解析のためのDO-GOOD(Out-of-distriion)ベンチマークを開発した。
次に、ロバスト性を評価し、5つの最新のVDU事前学習モデルと2つの典型的なOOD一般化アルゴリズムのきめ細かい解析を行う。
論文 参考訳(メタデータ) (2023-06-05T06:50:42Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Enhancing Out-of-Distribution Detection in Natural Language
Understanding via Implicit Layer Ensemble [22.643719584452455]
out-of-distribution (OOD) 検出は、意図したデータ分布からoutlierを識別することを目的としている。
本研究では,中間機能に階層化表現の学習を促すコントラスト学習に基づく新しいフレームワークを提案する。
私たちのアプローチは他の作業よりもはるかに効果的です。
論文 参考訳(メタデータ) (2022-10-20T06:05:58Z) - Igeood: An Information Geometry Approach to Out-of-Distribution
Detection [35.04325145919005]
Igeoodは, オフ・オブ・ディストリビューション(OOD)サンプルを効果的に検出する手法である。
Igeoodは任意のトレーニング済みニューラルネットワークに適用され、機械学習モデルにさまざまなアクセス権を持つ。
Igeoodは、さまざまなネットワークアーキテクチャやデータセットにおいて、競合する最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-15T11:26:35Z) - ProtoInfoMax: Prototypical Networks with Mutual Information Maximization
for Out-of-Domain Detection [19.61846393392849]
ProtoInfoMaxは、Prototypeal Networksを拡張してIn-Domain(ID)とOOD文を同時に処理する新しいアーキテクチャである。
提案手法は,低資源環境下でのOOD検出性能を最大20%向上できることを示す。
論文 参考訳(メタデータ) (2021-08-27T11:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。