論文の概要: Vec2Summ: Text Summarization via Probabilistic Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2508.07017v1
- Date: Sat, 09 Aug 2025 15:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.656814
- Title: Vec2Summ: Text Summarization via Probabilistic Sentence Embeddings
- Title(参考訳): Vec2Summ:確率論的文埋め込みによるテキスト要約
- Authors: Mao Li, Fred Conrad, Johann Gagnon-Bartsch,
- Abstract要約: Vec2Summはセマンティック埋め込み空間における1つの平均ベクトルを用いて文書コレクションを表現する。
生成言語モデルを用いて流動的な要約を再構築する。
Vec2Summは、局所的に焦点を絞った順序不変コーパスのためのコヒーレントなサマリーを生成する。
- 参考スコア(独自算出の注目度): 2.2029818765681086
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose Vec2Summ, a novel method for abstractive summarization that frames the task as semantic compression. Vec2Summ represents a document collection using a single mean vector in the semantic embedding space, capturing the central meaning of the corpus. To reconstruct fluent summaries, we perform embedding inversion -- decoding this mean vector into natural language using a generative language model. To improve reconstruction quality and capture some degree of topical variability, we introduce stochasticity by sampling from a Gaussian distribution centered on the mean. This approach is loosely analogous to bagging in ensemble learning, where controlled randomness encourages more robust and varied outputs. Vec2Summ addresses key limitations of LLM-based summarization methods. It avoids context-length constraints, enables interpretable and controllable generation via semantic parameters, and scales efficiently with corpus size -- requiring only $O(d + d^2)$ parameters. Empirical results show that Vec2Summ produces coherent summaries for topically focused, order-invariant corpora, with performance comparable to direct LLM summarization in terms of thematic coverage and efficiency, albeit with less fine-grained detail. These results underscore Vec2Summ's potential in settings where scalability, semantic control, and corpus-level abstraction are prioritized.
- Abstract(参考訳): 本稿では,タスクを意味的圧縮としてフレーム化する抽象的な要約手法であるVec2Summを提案する。
Vec2Summは、セマンティック埋め込み空間における1つの平均ベクトルを使用して文書コレクションを表現し、コーパスの中心的な意味をキャプチャする。
この平均ベクトルを生成言語モデルを用いて自然言語に復号する。
再現性の向上とある程度の話題変数の獲得を目的として,平均値を中心としたガウス分布をサンプリングし,確率性を導入する。
このアプローチは、制御されたランダム性によってより堅牢で多様な出力が促進されるアンサンブル学習におけるバッグングと緩やかに類似している。
Vec2SummはLLMに基づく要約手法の重要な制限に対処する。
コンテキスト長の制約を回避し、セマンティックパラメータによる解釈および制御可能な生成を可能にし、コーパスサイズで効率的にスケールする。
実験結果から、Vec2Summは、主題のカバレッジと効率の点で直接LLM要約に匹敵する性能で、微粒度が小さいにもかかわらず、局所的に焦点を絞った順序不変コーパスに対してコヒーレントなサマリーを生成することが示された。
これらの結果は、スケーラビリティ、セマンティックコントロール、コーパスレベルの抽象化が優先される設定において、Vec2Summの可能性を裏付ける。
関連論文リスト
- Syntactic Control of Language Models by Posterior Inference [53.823006836309695]
言語モデルによって生成されたテキストの構文構造を制御することは、明快さ、スタイリスティックな一貫性、解釈可能性を必要とするアプリケーションにとって重要である。
後部推論に基づくサンプリングアルゴリズムは、生成中に対象の選挙区構造を効果的に強制することができると論じる。
提案手法では,提案分布からのサンプリングにより後続分布を推定するモンテカルロ法と,各生成したトークンが所望の構文構造に整合することを保証する統語タグを併用する。
論文 参考訳(メタデータ) (2025-06-08T14:01:34Z) - Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment [69.67015515485349]
本稿では,条件付き確率分布を埋め込んだコントラスト学習手法であるAutoRegEmbedを提案する。
本手法は従来のコントラスト学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-17T03:36:25Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - Contrastive Conditional Neural Processes [45.70735205041254]
条件付きニューラル・プロセス(CNP)は、メタラーニング環境下でのプロセスの機能に近い確率的推論でニューラルネットワークをブリッジする。
2つの補助的コントラスト分岐が階層的に設定される。すなわち、インストラクテーション時間的コントラスト学習(tt TCL)とクロスストラクテーション関数コントラスト学習(tt FCL)である。
実験により、tt TCLは観測の高レベルの抽象化を捉えるのに対し、tt FCLは基底関数の同定に役立ち、より効率的な表現を提供することを示す。
論文 参考訳(メタデータ) (2022-03-08T10:08:45Z) - Reinforcing Semantic-Symmetry for Document Summarization [15.113768658584979]
文書要約は、長い文書を詳細な情報と正確な意味記述を備えた短いバージョンに凝縮する。
本稿では,文書要約のための新しいtextbfreinforcing stextbfemantic-textbfsymmetric Learning textbfmodelを提案する。
CNN/Daily MailとBigPatentの2つの大胆なベンチマークデータセットに対して、一連の実験が行われた。
論文 参考訳(メタデータ) (2021-12-14T17:41:37Z) - Discrete Optimization for Unsupervised Sentence Summarization with
Word-Level Extraction [31.648764677078837]
自動要約は、その最も重要な情報を保存しながら、文章の短いバージョンを生成する。
我々はこれら2つの側面を言語モデリングと意味的類似度メトリクスからなる教師なし目的関数でモデル化する。
提案手法は,ROUGEスコアによる教師なし文要約のための新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2020-05-04T19:01:55Z) - Exploring Explainable Selection to Control Abstractive Summarization [51.74889133688111]
説明可能性を重視した新しいフレームワークを開発する。
新しいペアワイズ行列は、文の相互作用、中心性、属性スコアをキャプチャする。
コンストラクタ内の文分割アテンション機構は、最終要約が所望のコンテンツを強調することを保証する。
論文 参考訳(メタデータ) (2020-04-24T14:39:34Z) - Interpretable Multi-Headed Attention for Abstractive Summarization at
Controllable Lengths [14.762731718325002]
MLS(Multi-level Summarizer)は、テキスト文書の要約を制御可能な長さで構築するための教師付き手法である。
MLSはMETEORスコアで14.70%の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2020-02-18T19:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。