Fugu-MT 論文翻訳(概要): Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification

論文の概要: Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification

arxiv url: http://arxiv.org/abs/2408.11237v1
Date: Tue, 20 Aug 2024 23:30:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 18:58:50.498254
Title: Out-of-Distribution Detection with Attention Head Masking for Multimodal Document Classification
Title（参考訳）: マルチモーダル文書分類のためのアテンションヘッドマスキングによるアウト・オブ・ディストリビューション検出
Authors: Christos Constantinou, Georgios Ioannides, Aman Chadha, Aaron Elkins, Edwin Simpson,
Abstract要約: 本稿では,文書分類システムにおける多モードOODタスクに対するアテンションヘッドマスキング(AHM)と呼ばれる新しい手法を提案する。実験により,提案手法がすべての最先端手法より優れていることを示す。高品質な公開可能なドキュメントデータセットの不足に対処するために、新しいドキュメントAIデータセットであるFunderDocsを紹介します。
参考スコア（独自算出の注目度）: 3.141006099594433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Detecting out-of-distribution (OOD) data is crucial in machine learning applications to mitigate the risk of model overconfidence, thereby enhancing the reliability and safety of deployed systems. The majority of existing OOD detection methods predominantly address uni-modal inputs, such as images or texts. In the context of multi-modal documents, there is a notable lack of extensive research on the performance of these methods, which have primarily been developed with a focus on computer vision tasks. We propose a novel methodology termed as attention head masking (AHM) for multi-modal OOD tasks in document classification systems. Our empirical results demonstrate that the proposed AHM method outperforms all state-of-the-art approaches and significantly decreases the false positive rate (FPR) compared to existing solutions up to 7.5\%. This methodology generalizes well to multi-modal data, such as documents, where visual and textual information are modeled under the same Transformer architecture. To address the scarcity of high-quality publicly available document datasets and encourage further research on OOD detection for documents, we introduce FinanceDocs, a new document AI dataset. Our code and dataset are publicly available.
Abstract（参考訳）: 機械学習アプリケーションにおいて、オフ・オブ・ディストリビューション(OOD)データの検出は、モデル過信のリスクを軽減し、デプロイされたシステムの信頼性と安全性を高めるために不可欠である。既存のOOD検出手法の大部分は、画像やテキストなどの一様入力に対処する。マルチモーダル文書の文脈では、主にコンピュータビジョンタスクに焦点をあてて開発されたこれらの手法の性能に関する広範な研究が欠如している。本稿では,文書分類システムにおける多モードOODタスクに対するアテンションヘッドマスキング(AHM)と呼ばれる新しい手法を提案する。実験の結果,提案手法はすべての最先端手法より優れており,既存の解に比べてFPR(偽陽性率)は7.5 %まで大幅に低下することがわかった。この手法は、視覚情報とテキスト情報が同じトランスフォーマーアーキテクチャでモデル化される文書などのマルチモーダルデータによく当てはまる。高品質な公開可能なドキュメントデータセットの不足に対処し、ドキュメントのOOD検出に関するさらなる研究を促進するために、新しいドキュメントAIデータセットであるFundyDocsを導入する。コードとデータセットは公開されています。

関連論文リスト

DocVCE: Diffusion-based Visual Counterfactual Explanations for Document Image Classification [5.247930659596986]
本稿では,行動可能な説明を通じて,モデルの決定に意味のある洞察を与える,生成的文書反事実について紹介する。著者の知識を最大限に活用するために、これは文書画像解析における生成的対実的説明を探求する最初の研究である。
論文参考訳（メタデータ） (2025-08-06T09:15:32Z)
Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文参考訳（メタデータ） (2025-05-09T04:40:11Z)
Benchmarking Vision Foundation Models for Input Monitoring in Autonomous Driving [7.064497253920508]
特徴抽出器および密度モデリング技術としてのビジョンファウンデーションモデル(VFM)を提案する。最先端のバイナリOOD分類法と比較すると、密度推定によるVFM埋め込みはOOD入力の同定において既存の手法よりも優れていることが分かる。提案手法は,ダウンストリームタスクにおけるエラーの原因となる可能性のある高リスク入力を検出し,全体的な性能を向上させる。
論文参考訳（メタデータ） (2025-01-14T12:51:34Z)
What If the Input is Expanded in OOD Detection? [77.37433624869857]
Out-of-distriion (OOD) 検出は未知のクラスからのOOD入力を特定することを目的としている。 In-distriion(ID)データと区別するために,様々なスコアリング関数を提案する。入力空間に異なる共通の汚職を用いるという、新しい視点を導入する。
論文参考訳（メタデータ） (2024-10-24T06:47:28Z)
MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文参考訳（メタデータ） (2024-07-18T01:33:20Z)
A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文参考訳（メタデータ） (2024-06-05T13:40:07Z)
Out-of-Distribution Detection Using Peer-Class Generated by Large Language Model [0.0]
アウト・オブ・ディストリビューション(OOD)検出は、マシンラーニングモデルの信頼性とセキュリティを確保するための重要なタスクである。本稿では,ODPCと呼ばれる新しい手法を提案し,大規模言語モデルを用いてOODピア・セマンティクスのクラスを生成する。 5つのベンチマークデータセットの実験により,提案手法は最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2024-03-20T06:04:05Z)
Exploring Large Language Models for Multi-Modal Out-of-Distribution Detection [67.68030805755679]
大きな言語モデル(LLM)は豊富な世界の知識をエンコードし、クラスごとに記述的な特徴を生成するよう促すことができる。本稿では,LLMの選択的生成によるOOD検出性能向上のための世界知識の適用を提案する。
論文参考訳（メタデータ） (2023-10-12T04:14:28Z)
Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文参考訳（メタデータ） (2023-06-06T14:23:34Z)
Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual Document Understanding Models [68.12229916000584]
本研究では,文書画像関連タスクの微粒化解析のためのDO-GOOD(Out-of-distriion)ベンチマークを開発した。次に、ロバスト性を評価し、5つの最新のVDU事前学習モデルと2つの典型的なOOD一般化アルゴリズムのきめ細かい解析を行う。
論文参考訳（メタデータ） (2023-06-05T06:50:42Z)
Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文参考訳（メタデータ） (2023-03-21T14:24:58Z)
Enhancing Out-of-Distribution Detection in Natural Language Understanding via Implicit Layer Ensemble [22.643719584452455]
out-of-distribution (OOD) 検出は、意図したデータ分布からoutlierを識別することを目的としている。本研究では,中間機能に階層化表現の学習を促すコントラスト学習に基づく新しいフレームワークを提案する。私たちのアプローチは他の作業よりもはるかに効果的です。
論文参考訳（メタデータ） (2022-10-20T06:05:58Z)
Igeood: An Information Geometry Approach to Out-of-Distribution Detection [35.04325145919005]
Igeoodは, オフ・オブ・ディストリビューション(OOD)サンプルを効果的に検出する手法である。 Igeoodは任意のトレーニング済みニューラルネットワークに適用され、機械学習モデルにさまざまなアクセス権を持つ。 Igeoodは、さまざまなネットワークアーキテクチャやデータセットにおいて、競合する最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-03-15T11:26:35Z)
ProtoInfoMax: Prototypical Networks with Mutual Information Maximization for Out-of-Domain Detection [19.61846393392849]
ProtoInfoMaxは、Prototypeal Networksを拡張してIn-Domain(ID)とOOD文を同時に処理する新しいアーキテクチャである。提案手法は,低資源環境下でのOOD検出性能を最大20%向上できることを示す。
論文参考訳（メタデータ） (2021-08-27T11:55:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。