論文の概要: LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding
- arxiv url: http://arxiv.org/abs/2411.01106v1
- Date: Sat, 02 Nov 2024 02:09:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:07.280665
- Title: LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding
- Title(参考訳): 長期文書理解のための大規模マルチモーダルモデルの LoRA-Contextualizing Adaptation
- Authors: Jian Chen, Ruiyi Zhang, Yufan Zhou, Tong Yu, Franck Dernoncourt, Jiuxiang Gu, Ryan A. Rossi, Changyou Chen, Tong Sun,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、最近、テキストに富む画像理解において大きな進歩を見せている。
長文書理解を支援するLMMの能力を拡張したLoRA-Contextualizing Adaptation of Large Multimodal Model (LoCAL) という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 103.69014172427026
- License:
- Abstract: Large multimodal models (LMMs) have recently shown great progress in text-rich image understanding, yet they still struggle with complex, multi-page, visually-rich documents. Traditional methods using document parsers for retrieval-augmented generation suffer from performance and efficiency limitations, while directly presenting all pages to LMMs leads to inefficiencies, especially with lengthy documents. In this work, we present a novel framework named LoRA-Contextualizing Adaptation of Large multimodal models (LoCAL), which broadens the capabilities of any LMM to support long-document understanding. We demonstrate that LMMs can effectively serve as multimodal retrievers, fetching relevant pages to answer user questions based on these pages. LoCAL is implemented with two specific LMM adapters: one for evidence page retrieval and another for question answering. Empirical results show state-of-the-art performance on public benchmarks, demonstrating the effectiveness of LoCAL.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、最近、テキストに富む画像理解において大きな進歩を見せている。
検索拡張生成に文書パーサを使用する従来の手法は、性能と効率の限界に悩まされ、一方、全てのページをLMMに直接提示すると、特に長いドキュメントでは非効率になる。
本研究は,LRA-Contextualizing Adaptation of Large Multimodal Model (LoCAL) と呼ばれる新しいフレームワークを提案する。
我々は,LMMが効果的にマルチモーダル検索として機能し,関連するページを取得し,これらのページに基づいてユーザの質問に回答できることを実証した。
LoCALは、エビデンスページ検索用と質問応答用という2つの特定のLMMアダプタで実装されている。
実証実験の結果,LoCALの有効性が示された。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Enhancing Presentation Slide Generation by LLMs with a Multi-Staged End-to-End Approach [21.8104104944488]
ドキュメントからリッチなプレゼンテーションを生成するための既存のアプローチは、しばしば半自動的であるか、良い物語の重要性を無視してスライドに平らな要約を配置するだけである。
LLMとVLMを組み合わせた多段階のエンドツーエンドモデルを提案する。
我々は,LLMを最先端のプロンプトで直接適用するよりも,自動計測と人的評価の点で,提案した多段階ソリューションの方が優れていることを実験的に示した。
論文 参考訳(メタデータ) (2024-06-01T07:49:31Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - LAPDoc: Layout-Aware Prompting for Documents [3.523208537466128]
そこで本研究では,テキストベースのLLMを文書固有のタスクに使用する可能性について,レイアウトエンリッチメントを用いて検討する。
その結果,レイアウトの充実により,文書理解のためのテキストベースのLLMの性能が最大15%向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-15T10:00:49Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。