論文の概要: Towards Knowledge-Aware Document Systems: Modeling Semantic Coverage Relations via Answerability Detection
- arxiv url: http://arxiv.org/abs/2509.08304v1
- Date: Wed, 10 Sep 2025 06:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.322181
- Title: Towards Knowledge-Aware Document Systems: Modeling Semantic Coverage Relations via Answerability Detection
- Title(参考訳): 知識認識型文書システムに向けて:解答可能性検出による意味被覆関係のモデル化
- Authors: Yehudit Aperstein, Alon Gottlib, Gal Benita, Alexander Apartsin,
- Abstract要約: 本稿では,セマンティックカバレッジ関係(SCR)をモデル化するための新しいフレームワークを提案する。
等価性、包摂性、セマンティックオーバーラップという3つのコア関係タイプを定義します。
質問応答(QA)に基づくアプローチでは,文書間で共有された質問の応答可能性を意味的カバレッジの指標として活用する。
- 参考スコア(独自算出の注目度): 40.12543056558646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how information is shared across documents, regardless of the format in which it is expressed, is critical for tasks such as information retrieval, summarization, and content alignment. In this work, we introduce a novel framework for modelling Semantic Coverage Relations (SCR), which classifies document pairs based on how their informational content aligns. We define three core relation types: equivalence, where both texts convey the same information using different textual forms or styles; inclusion, where one document fully contains the information of another and adds more; and semantic overlap, where each document presents partially overlapping content. To capture these relations, we adopt a question answering (QA)-based approach, using the answerability of shared questions across documents as an indicator of semantic coverage. We construct a synthetic dataset derived from the SQuAD corpus by paraphrasing source passages and selectively omitting information, enabling precise control over content overlap. This dataset allows us to benchmark generative language models and train transformer-based classifiers for SCR prediction. Our findings demonstrate that discriminative models significantly outperform generative approaches, with the RoBERTa-base model achieving the highest accuracy of 61.4% and the Random Forest-based model showing the best balance with a macro-F1 score of 52.9%. The results show that QA provides an effective lens for assessing semantic relations across stylistically diverse texts, offering insights into the capacity of current models to reason about information beyond surface similarity. The dataset and code developed in this study are publicly available to support reproducibility.
- Abstract(参考訳): 情報検索や要約,コンテンツアライメントといったタスクには,表現形式に関係なく,ドキュメント間で情報の共有方法を理解することが不可欠である。
本研究では,セマンティックカバレッジ関係(SCR)をモデル化するための新しいフレームワークを提案する。
両テキストが異なるテキスト形式やスタイルで同じ情報を伝達する同値性,1つの文書が他の文書の情報を完全に含み、さらに追加する包含性,各文書が部分的に重複する内容を示す意味的重複という3つの中核関係型を定義した。
これらの関係を捉えるために、文書間で共有された質問の回答可能性を利用して、質問応答(QA)に基づくアプローチを採用する。
我々は,SQuADコーパスから派生した合成データセットを,ソースパスをパラフレーズ化し,情報を選択的に省略することで構築し,コンテントオーバーラップの正確な制御を可能にする。
このデータセットにより、生成言語モデルをベンチマークし、SCR予測のためのトランスフォーマーベースの分類器を訓練することができる。
判別モデルでは,RoBERTaベースモデルが61.4%,Random Forestベースモデルが52.9%,マクロF1スコアが52.9%であった。
その結果、QAはスタイリスティックな多彩なテキスト間の意味関係を評価する効果的なレンズを提供し、現在のモデルが表面的類似性を超えた情報を推論する能力についての洞察を提供する。
本研究で開発されたデータセットとコードは再現性をサポートするために公開されている。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Personalized Video Summarization using Text-Based Queries and Conditional Modeling [3.4447129363520337]
この論文は、テキストベースのクエリと条件付きモデリングを統合することで、ビデオ要約の強化を探求する。
精度やF1スコアなどの評価指標は、生成された要約の品質を評価する。
論文 参考訳(メタデータ) (2024-08-27T02:43:40Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Multi-Review Fusion-in-Context [20.681734117825822]
接地テキスト生成には、コンテンツ選択とコンテンツ統合の両方が必要である。
最近の研究で、各ステップごとに別々のコンポーネントを持つモジュラーアプローチが提案されている。
本研究は,マルチドキュメント・セッティングにおけるモジュール・テキスト・ジェネレーションのさらなる探求の基盤となるものである。
論文 参考訳(メタデータ) (2024-03-22T17:06:05Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - QA-Align: Representing Cross-Text Content Overlap by Aligning
Question-Answer Propositions [12.264795812337153]
本稿では,情報統合のための足場として,テキスト間の述語関係の整合性を提案する。
我々の設定はQA-SRLを利用して、質問応答ペアを用いて述語-論証関係をキャプチャする。
分析によると、私たちの新しいタスクはセマンティックに困難であり、語彙的類似性を超えてコンテンツの重複を捉えている。
論文 参考訳(メタデータ) (2021-09-26T17:19:48Z) - Nutribullets Hybrid: Multi-document Health Summarization [36.95954983680022]
本稿では,入力文書の類似性と矛盾を強調する比較要約を生成する手法を提案する。
私たちのフレームワークは、より忠実で関連性があり、集約に敏感な要約につながります。
論文 参考訳(メタデータ) (2021-04-08T01:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。