論文の概要: Document Understanding, Measurement, and Manipulation Using Category Theory
- arxiv url: http://arxiv.org/abs/2510.21553v1
- Date: Fri, 24 Oct 2025 15:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.518461
- Title: Document Understanding, Measurement, and Manipulation Using Category Theory
- Title(参考訳): カテゴリー理論を用いた文書理解・計測・操作
- Authors: Jared Claypoole, Yunye Gong, Noson S. Yanofsky, Ajay Divakaran,
- Abstract要約: マルチモーダル文書構造抽出にカテゴリ理論を適用した。
我々は、情報理論尺度、コンテンツ要約と拡張、および大規模事前学習モデルの自己監督的改善を開発する。
- 参考スコア(独自算出の注目度): 7.117514203300817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We apply category theory to extract multimodal document structure which leads us to develop information theoretic measures, content summarization and extension, and self-supervised improvement of large pretrained models. We first develop a mathematical representation of a document as a category of question-answer pairs. Second, we develop an orthogonalization procedure to divide the information contained in one or more documents into non-overlapping pieces. The structures extracted in the first and second steps lead us to develop methods to measure and enumerate the information contained in a document. We also build on those steps to develop new summarization techniques, as well as to develop a solution to a new problem viz. exegesis resulting in an extension of the original document. Our question-answer pair methodology enables a novel rate distortion analysis of summarization techniques. We implement our techniques using large pretrained models, and we propose a multimodal extension of our overall mathematical framework. Finally, we develop a novel self-supervised method using RLVR to improve large pretrained models using consistency constraints such as composability and closure under certain operations that stem naturally from our category theoretic framework.
- Abstract(参考訳): カテゴリ理論を応用して多モード文書構造を抽出し,情報理論尺度,コンテンツ要約・拡張,大規模事前学習モデルの自己監督的改善などを実現する。
まず,質問応答ペアのカテゴリとして,文書の数学的表現を開発する。
第2に、1つ以上の文書に含まれる情報を重複しない断片に分割する直交化手順を開発する。
第1ステップと第2ステップで抽出された構造は、文書に含まれる情報を計測し列挙する手法を開発するのに役立ちます。
また、これらのステップに基づいて、新しい要約手法を開発し、また、新しい問題に対する解決策を開発する。
本手法は,要約手法の新たな速度歪み解析を可能にする。
我々は,大規模な事前学習モデルを用いて,我々の手法を実装し,数学的枠組みのマルチモーダル拡張を提案する。
最後に、RLVRを用いた新たな自己教師手法を開発し、我々のカテゴリ理論フレームワークから自然に派生した特定の操作において、構成可能性やクロージャなどの一貫性制約を用いて、大規模な事前学習モデルを改善する。
関連論文リスト
- DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - Graph Topic Modeling for Documents with Spatial or Covariate Dependencies [0.9208007322096533]
文書レベルのメタデータをトピックモデリングに組み込むという課題に対処する。
高速グラフ正規化反復特異値分解に基づく新しい推定器を提案する。
合成データセットと実世界の3つのコーパスに関する包括的実験により,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2024-12-19T03:00:26Z) - Enhancing binary classification: A new stacking method via leveraging computational geometry [5.906199156511947]
本稿では,計算幾何学的手法,特に最大重み付き矩形問題の解法を統合した新しいメタモデルを提案する。
本手法は複数のオープンデータセットを用いて評価し,その安定性と精度の向上を示す統計解析を行った。
本手法は, アンサンブル学習の積み重ねだけでなく, 病院の健康評価評価や銀行信用評価システムなど, 様々な実世界の応用にも応用できる。
論文 参考訳(メタデータ) (2024-10-30T06:11:08Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models [29.94694305204144]
本稿では,文書レベルのインコンテクスト・イン・ショット関係抽出のための新しいフレームワークを提案する。
ドキュメントレベルの関係抽出用データセットとして最大であるDocREDを用いて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-17T09:10:27Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。