論文の概要: Make Any Collection Navigable: Methods for Constructing and Evaluating Hypergraph of Text
- arxiv url: http://arxiv.org/abs/2604.25906v1
- Date: Tue, 28 Apr 2026 17:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.985852
- Title: Make Any Collection Navigable: Methods for Constructing and Evaluating Hypergraph of Text
- Title(参考訳): 任意のコレクションをナビゲート可能にする:テキストのハイパーグラフの構築と評価方法
- Authors: Dean E. Alvarez, ChengXiang Zhai,
- Abstract要約: テキストのハイパーグラフ(HoT)を構築するためのいくつかの手法を提案し,研究する。
また,構築したHoTの構造的品質を評価するために,新しい量量,労力比を提案する。
実験結果から, TF-IDF ベースラインであっても, LLM の手法に適合することを示す。
- 参考スコア(独自算出の注目度): 23.834176909656406
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: One reason the Web is more useful than a simple collection of documents is that the structure created by hyperlinks enables flexible navigation from one web page to another. However, hyperlinks are typically created manually and cannot fully capture a corpus' implicit semantic structures. Is there a general way to make an arbitrary collection navigable? Recent work has formalized this problem generally as constructing a Hypergraph of Text (HoT), which provides a formal mathematical structure for supporting navigation and browsing. However, how to construct and evaluate a Hypergraph of Text remains a challenge. In this paper, we propose and study several methods for constructing a HoT. We also propose a novel quantitative metric, effort ratio, for evaluating the structural quality of a constructed HoT. Experimental results show that even simple TF-IDF baselines can match LLM-based methods on our proposed effort ratio metric.
- Abstract(参考訳): Webがドキュメントの単純なコレクションよりも有用である理由の1つは、ハイパーリンクによって生成された構造が、あるWebページから別のWebページへの柔軟なナビゲーションを可能にすることである。
しかし、ハイパーリンクは通常手動で作成され、コーパスの暗黙的なセマンティック構造を完全にキャプチャすることはできない。
任意のコレクションをナビゲートする一般的な方法はありますか?
最近の研究は一般に、ナビゲーションとブラウジングをサポートする公式な数学的構造を提供するハイパーグラフ・オブ・テキスト(HoT)の構築としてこの問題を公式化した。
しかし、テキストのハイパーグラフの構築と評価は依然として課題である。
本稿では,HoTを構築するためのいくつかの手法を提案し,検討する。
また,構築したHoTの構造的品質を評価するために,新しい量量,労力比を提案する。
実験結果から, TF-IDF ベースラインであっても, LLM の手法に適合することを示す。
関連論文リスト
- Argument Mining as a Text-to-Text Generation Task [9.144312884638545]
本稿では,事前学習したエンコーダ・デコーダ言語モデルを用いて,テキストからテキストへ変換する手法を提案する。
提案手法は,スパン,コンポーネント,リレーションのための議論的注釈付きテキストを同時に生成する。
論文 参考訳(メタデータ) (2026-03-25T05:10:39Z) - UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters [55.34921520578968]
視覚言語モデル(VLM)は、テキストと公式の統一的な認識を実現している。
パラメータが0.1Bしか持たない統一認識モデルUniRec-0.1Bを提案する。
文字、単語、行、段落、文書など、複数のレベルでテキストや公式の認識を行うことができる。
論文 参考訳(メタデータ) (2025-12-24T10:35:21Z) - Cross-Granularity Hypergraph Retrieval-Augmented Generation for Multi-hop Question Answering [49.43814054718318]
マルチホップ質問応答 (MHQA) は、正しい回答を得るために複数の経路に散在する知識を統合する必要がある。
従来の検索拡張生成法(RAG)は主に粗い粒度のテキスト意味的類似性に焦点を当てている。
本稿では,HGRAG for MHQAという新しいRAG手法を提案する。
論文 参考訳(メタデータ) (2025-08-15T06:36:13Z) - fLSA: Learning Semantic Structures in Document Collections Using Foundation Models [14.935888855108592]
基礎モデルに基づく潜在意味分析法である fLSA を導入する。
従来のタグ付け手法よりも,fLSAタグの方が原文の再構築に有益であることを示す。
論文 参考訳(メタデータ) (2024-10-07T20:25:52Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Automatic Document Sketching: Generating Drafts from Analogous Texts [44.626645471195495]
著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。
これらのドラフトは、コンテンツのばらつきながら、形式的に重複するドキュメントのセット - 潜在的に再利用可能なテキストの大きなセグメントを共有する - から作成されます。
本研究は,変圧器を用いた専門家の混合と強化学習の併用を含む,弱教師付き手法の適用について検討する。
論文 参考訳(メタデータ) (2021-06-14T06:46:06Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。