Fugu-MT 論文翻訳(概要): A Picture is Worth a Thousand Words? An Empirical Study of Aggregation Strategies for Visual Financial Document Retrieval

論文の概要: A Picture is Worth a Thousand Words? An Empirical Study of Aggregation Strategies for Visual Financial Document Retrieval

arxiv url: http://arxiv.org/abs/2605.14581v1
Date: Thu, 14 May 2026 08:53:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-15 21:45:34.732717
Title: A Picture is Worth a Thousand Words? An Empirical Study of Aggregation Strategies for Visual Financial Document Retrieval
Title（参考訳）: 写真は千語の価値か? ビジュアル・ファイナンシャル・ドキュメント検索のためのアグリゲーション・ストラテジーの実証的研究
Authors: Ho Hung Lim, Yi Yang,
Abstract要約: Visual RAGは文書をイメージとして扱い、視覚パッチトークンを取得するために視覚エンコーダを使用する。文書ごとに数百のパッチトークンが、ベクトルデータベースにおける検索とストレージの課題を生み出します。単一ベクターアグリゲーションは、財務文書の重要な情報を失うのか?
参考スコア（独自算出の注目度）: 8.560410767537162
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Visual RAG has offered an alternative to traditional RAG. It treats documents as images and uses vision encoders to obtain vision patch tokens. However, hundreds of patch tokens per document create retrieval and storage challenges in a vector database. Practical deployment requires aggregating them into a single vector. This raises a critical question: does single-vector aggregation lose key information in financial documents? We develop a diagnostic benchmark using financial documents where changes in single digits can lead to significant semantic shifts. Our experiments show that single-vector aggregation collapses different documents with almost identical vectors. Metrics show that the patch level detects semantic changes, and confirm that aggregation obscures these details. We identify global texture dominance as the root cause. Our findings are consistent across model scales, retrieval-optimized embeddings, and multiple mitigation strategies, highlighting significant risks for single-vector visual document retrieval in financial applications.
Abstract（参考訳）: Visual RAGは従来のRAGに代わるものを提供している。文書を画像として扱い、視覚パッチトークンを得るために視覚エンコーダを使用する。しかし、文書ごとに何百ものパッチトークンが、ベクトルデータベースにおける検索とストレージの課題を生み出している。実践的なデプロイメントでは、それらをひとつのベクタに集約する必要があります。単一ベクターアグリゲーションは、財務文書の重要な情報を失うのか? 我々は、単一桁の変化が意味的な大きな変化をもたらす可能性のある財務文書を用いた診断ベンチマークを開発する。実験の結果, 単ベクトル集合は, ほぼ同一のベクトルで異なる文書を崩壊させることがわかった。メトリクスはパッチレベルが意味的変化を検出し、アグリゲーションがこれらの詳細を曖昧にすることを示す。我々は,地球規模のテクスチャ優位性を根本原因とみなしている。本研究の結果は, モデルスケール, 検索最適化埋め込み, 多重緩和戦略に一貫したものであり, 財務アプリケーションにおける単一ベクトルビジュアルドキュメント検索の重大なリスクを浮き彫りにしている。

関連論文リスト

Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。 AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文参考訳（メタデータ） (2026-02-24T18:57:33Z)
Beyond Patch Aggregation: 3-Pass Pyramid Indexing for Vision-Enhanced Document Retrieval [0.0]
ドキュメント中心のRAGパイプラインは通常、OCRから始まり、次にチャンキング、テーブル解析、レイアウト再構築のための脆さが続く。我々は,OCRフリーかつモデル非依存なマルチモーダル検索システムであるVisionRAGを紹介する。 VisionRAGは、ドキュメントを直接イメージとしてインデックスし、レイアウト、テーブル、空間的なキューを保存し、特定の抽出にコミットすることなくセマンティックベクターを構築する。
論文参考訳（メタデータ） (2025-11-26T07:18:06Z)
UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。 UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文参考訳（メタデータ） (2025-10-04T04:30:13Z)
Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。 Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2025-02-18T15:56:34Z)
SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文参考訳（メタデータ） (2023-05-01T12:47:55Z)
Same or Different? Diff-Vectors for Authorship Analysis [78.83284164605473]
古典的な著作物分析において、特徴ベクトルは文書を表し、特徴の値は文書中の特徴の相対周波数(関数の増大)を表し、クラスラベルは文書の著者を表す。筆者らの実験は共著者検証,著者検証,クローズドセットの著者帰属に取り組んでおり,DVは自然に第1の問題を解くのに向いているが,第2と第3の問題を解くための2つの新しい方法も提供している。
論文参考訳（メタデータ） (2023-01-24T08:48:12Z)
Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文参考訳（メタデータ） (2022-12-20T18:09:52Z)
Multi-Vector Retrieval as Sparse Alignment [21.892007741798853]
本稿では,クエリと文書トークンの相互アライメントを疎結合に学習する,新しいマルチベクタ検索モデルを提案する。エントロピー規則化線形計画法により、疎度を達成するために他の手法よりも優れるスパースなユニタリサリエンスを学習する。我々のモデルは、しばしば解釈可能なアライメントを生成し、より大きな言語モデルからその性能を著しく向上させる。
論文参考訳（メタデータ） (2022-11-02T16:49:58Z)
Multi-View Document Representation Learning for Open-Domain Dense Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文参考訳（メタデータ） (2022-03-16T03:36:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。