Fugu-MT 論文翻訳(概要): Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal Large Language Models (LLM)

論文の概要: Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal Large Language Models (LLM)

arxiv url: http://arxiv.org/abs/2406.10295v1
Date: Thu, 13 Jun 2024 08:55:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 01:11:41.775671
Title: Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal Large Language Models (LLM)
Title（参考訳）: 多モード大言語モデル(LLM)を用いた面内回転文書からの構造化データのロバスト性
Authors: Anjanava Biswas, Wrick Talukdar,
Abstract要約: 本研究では,文書スキューが3つの最先端マルチモーダルモデルのデータの抽出精度に与える影響について検討した。モデル毎に安全な面内回転角(SIPRA)を同定し,スキューがモデル幻覚に及ぼす影響について検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multi-modal large language models (LLMs) have shown remarkable performance in various natural language processing tasks, including data extraction from documents. However, the accuracy of these models can be significantly affected by document in-plane rotation, also known as skew, a common issue in real-world scenarios for scanned documents. This study investigates the impact of document skew on the data extraction accuracy of three state-of-the-art multi-modal LLMs: Anthropic Claude V3 Sonnet, GPT-4-Turbo, and Llava:v1.6. We focus on extracting specific entities from synthetically generated sample documents with varying degrees of skewness. The results demonstrate that document skew adversely affects the data extraction accuracy of all the tested LLMs, with the severity of the impact varying across models. We identify the safe in-plane rotation angles (SIPRA) for each model and investigate the effects of skew on model hallucinations. Furthermore, we explore existing skew detection and correction mechanisms and discuss their potential limitations. We propose alternative approaches, including developing new multi-modal architectures that are inherently more robust to document skew and incorporating skewing techniques during the pre-training phase of the models. Additionally, we highlight the need for more comprehensive testing on a wider range of document quality and conditions to fully understand the challenges and opportunities associated with using multi-modal LLMs for information extraction in real-world scenarios.
Abstract（参考訳）: マルチモーダルな大規模言語モデル (LLM) は、文書からのデータ抽出を含む様々な自然言語処理タスクにおいて顕著な性能を示している。しかし、これらのモデルの精度は、スキャンされた文書の実際のシナリオにおける一般的な問題であるスクリュー(skew)としても知られる、文書内回転によって大きく影響を受ける可能性がある。本研究では,文書スキューが3つの最先端マルチモーダルLCM(Arthhropic Claude V3 Sonnet, GPT-4-Turbo, Llava:v1.6)のデータ抽出精度に与える影響について検討した。本研究は,合成されたサンプル文書から種々の歪度で特定の実体を抽出することに焦点を当てる。その結果, 文書スキューが全試験LCMのデータ抽出精度に悪影響を及ぼし, その重大さはモデルによって異なることがわかった。モデル毎に安全な面内回転角(SIPRA)を同定し,スキューがモデル幻覚に及ぼす影響について検討する。さらに,既存のスキュー検出・補正機構について検討し,その潜在的な限界について考察する。本稿では,スキューの文書化に本質的に堅牢な新しいマルチモーダルアーキテクチャの開発や,事前学習段階のスキーイング技術の導入など,新たなアプローチを提案する。さらに,マルチモーダル LLM を用いた実世界のシナリオにおける情報抽出における課題と機会を十分に理解するために,より広範囲の文書品質と条件に関するより包括的なテストの必要性を強調した。

関連論文リスト

Can large language models assist choice modelling? Insights into prompting strategies and current models capabilities [0.0]
大規模言語モデル(LLM)は様々な分野をサポートするために広く使われているが、その選択肢モデリングの可能性はいまだに解明されていない。本研究は, LLMの仕様における補助エージェントとしての可能性を検討するとともに, 技術的に実現可能なマルチノードロジットモデルの推定を行う。
論文参考訳（メタデータ） (2025-07-29T13:24:44Z)
A Step towards Interpretable Multimodal AI Models with MultiFIX [0.0]
MultiFIXは、解釈可能性駆動型マルチモーダルデータ融合パイプラインである。明確に異なるモダリティから特徴を区別し、それらを組み合わせて最終的な予測を行う。特徴抽出と予測モデリングのための複数のトレーニング戦略を用いて,MultiFIXの使用について検討する。
論文参考訳（メタデータ） (2025-05-16T13:54:29Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文参考訳（メタデータ） (2025-02-12T15:03:33Z)
MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文参考訳（メタデータ） (2024-07-18T01:33:20Z)
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.40908753726324]
拡散モデルは現実的で多様な画像を生成することができ、データ集約的な知覚タスクのためのデータ可用性を促進する可能性がある。 textbfAuto textbfCherry-textbfPicker (ACP)を提案する。
論文参考訳（メタデータ） (2024-06-28T17:53:18Z)
LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data [3.66486428341988]
マルチモーダルディープラーニングは、テキスト、画像、オーディオ、ビデオなどの多様な情報ソースを統合することで意思決定を強化する。信頼性の高いマルチモーダルアプローチを開発するためには、これらのモデルがいかに不確実性に与える影響を理解することが不可欠である。我々は,不確実かつマルチモーダルなデータから学習するために,50クラスの音声,画像,テキストデータを含むユニークなベンチマークデータセットLUMAを提案する。
論文参考訳（メタデータ） (2024-06-14T09:22:07Z)
Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文参考訳（メタデータ） (2024-04-04T10:09:28Z)
Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文参考訳（メタデータ） (2024-03-12T14:58:52Z)
MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。 11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文参考訳（メタデータ） (2024-01-30T04:50:28Z)
BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文参考訳（メタデータ） (2023-10-24T12:18:17Z)
Revisit Input Perturbation Problems for LLMs: A Unified Robustness Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文参考訳（メタデータ） (2023-10-10T10:22:05Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。