論文の概要: Skim-Aware Contrastive Learning for Efficient Document Representation
- arxiv url: http://arxiv.org/abs/2512.24373v1
- Date: Tue, 30 Dec 2025 17:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.445069
- Title: Skim-Aware Contrastive Learning for Efficient Document Representation
- Title(参考訳): 効率的な文書表現のためのスキーアウェアコントラスト学習
- Authors: Waheed Ahmed Abro, Zied Bouraoui,
- Abstract要約: 文書表現を長くする自己教師付きコントラスト学習フレームワークを新たに導入する。
提案手法は文書のセクションをランダムにマスキングし,自然言語推論(NLI)に基づくコントラスト目的を用いて,関係のない部分と区別しながら関連部分と整合する。
法医学的および生物医学的なテキストの実験は、正確性と効率の両方において有意な向上を証明している。
- 参考スコア(独自算出の注目度): 12.910444755119082
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Although transformer-based models have shown strong performance in word- and sentence-level tasks, effectively representing long documents, especially in fields like law and medicine, remains difficult. Sparse attention mechanisms can handle longer inputs, but are resource-intensive and often fail to capture full-document context. Hierarchical transformer models offer better efficiency but do not clearly explain how they relate different sections of a document. In contrast, humans often skim texts, focusing on important sections to understand the overall message. Drawing from this human strategy, we introduce a new self-supervised contrastive learning framework that enhances long document representation. Our method randomly masks a section of the document and uses a natural language inference (NLI)-based contrastive objective to align it with relevant parts while distancing it from unrelated ones. This mimics how humans synthesize information, resulting in representations that are both richer and more computationally efficient. Experiments on legal and biomedical texts confirm significant gains in both accuracy and efficiency.
- Abstract(参考訳): トランスフォーマーに基づくモデルでは、単語や文レベルのタスクでは高いパフォーマンスを示してきたが、特に法律や医学などの分野では、文書を効果的に表現することは困難である。
スパースアテンションメカニズムは長い入力を処理できるが、リソース集約であり、フルドキュメントのコンテキストをキャプチャできないことが多い。
階層変換モデルの方が効率が良いが、文書の異なるセクションをどう関連づけるかは明確には説明していない。
対照的に、人間はしばしばテキストをスキップし、メッセージ全体を理解するために重要なセクションに焦点を当てる。
この人的戦略から、長い文書表現を強化する自己指導型コントラスト学習フレームワークを導入する。
提案手法は文書のセクションをランダムにマスキングし,自然言語推論(NLI)に基づくコントラスト目的を用いて,関係のない部分と区別しながら関連部分と整合する。
これは人間が情報を合成する方法を模倣し、その結果、より豊かで計算効率の良い表現が生まれる。
法医学的および生物医学的なテキストの実験は、正確性と効率の両方において有意な向上を証明している。
関連論文リスト
- Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [3.9914181590063884]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - Verified Language Processing with Hybrid Explainability: A Technical Report [0.7066382982173529]
この問題に対処するために,ハイブリッドな説明責任を設計した新しいパイプラインを提案する。
我々の手法はグラフと論理を組み合わせて一階述語論理表現を生成し、モンタギュー文法を通して機械的・人間的可読表現を生成する。
予備的な結果は,本手法が全文類似性を捉える上での有効性を示している。
論文 参考訳(メタデータ) (2025-07-07T14:00:05Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - The Devil is in the Details: Evaluating Limitations of Transformer-based
Methods for Granular Tasks [19.099852869845495]
トランスフォーマーベースのニューラルネットワークモデルから派生したコンテキスト埋め込みは、様々なタスクに対して最先端のパフォーマンスを示している。
本稿では,文書の粒度の一致と抽象レベルという2つの観点から,テキストの類似性の問題に焦点をあてる。
異なるドメインからの2つのデータセットに対して、期待されるように抽象的なドキュメントマッチングのパフォーマンスが高いにもかかわらず、コンテキスト埋め込みは、よりきめ細かいタスクのためにTF-IDFのような単純なベースラインによって一貫して(そして非常に)パフォーマンスが向上していることを実証的に実証した。
論文 参考訳(メタデータ) (2020-11-02T18:41:32Z) - Enhancing Extractive Text Summarization with Topic-Aware Graph Neural
Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。
本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。
実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T09:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。